<div style="text-align: center;">
    <img src="https://mejores.com/wp-content/uploads/2020/08/Universidad-Tecnica-Federico-Santa-Maria.jpg" title="Title text" width="20%" height="20%" />
</div>



<hr style="height:2px;border:none"/>
<h1 align='center'> INF053H Procesamiento y visualización de datos </h1>

<H3 align='center'> Gráficos 2D y Conceptos básicos </H3>
<hr style="height:2px;border:none"/>



**Objetivos de aprendizaje:**
  * Acceder y manipular datos dentro de `DataFrame`
  * Importar datos CSV a un `DataFrame` de *Pandas*

<hr style="height:2px;border:none"/>

# *Dataset*
El principal conjunto de datos utilizado es «Salary Data.csv», que engloba varias características:

- **Edad:** La edad de los empleados.
- **Años de experiencia:** La experiencia laboral total de los empleados.
- **Sexo:** El sexo de los empleados.
- **Cargo:** La designación o función de los empleados.
- **Nivel de estudios:** La titulación educativa más alta de los empleados.
- **Salario:** El salario anual de los empleados (nuestra variable objetivo).

 Cargar un archivo completo en un `DataFrame`. El siguiente ejemplo carga un archivo con datos de viviendas de California. Ejecuta la siguiente celda para cargar los datos y crear definiciones de funciones:

In [None]:
import pandas as pd
import numpy as np
import random
import matplotlib.pyplot as plt
import seaborn  as sns

df = pd.read_csv('Salary Data.csv')
print(df.shape)
df.head()

- `df.info()` : Retorna información (número de filas, número de columnas, índices, tipo de las columnas y memoria usada) sobre el `DataFrame` df.
- `df.shape` : Retorna una tupla con el número de filas y columnas del `DataFrame` df.
- `df.size` : Retorna el número de elementos del `DataFrame`.
- `df.columns` : Retorna una lista con los nombres de las columnas del `DataFrame` df.
- `df.index` : Retorna una lista con los nombres de las filas del `DataFrame` df.
- `df.dtypes` : Retorna una serie con los tipos de datos de las columnas del `DataFrame` df.
- `df.head(n)` : Retorna las `n` primeras filas del `DataFrame` df.
- `df.tail(n)` : Retorna las `n` últimas filas del `DataFrame` df.


In [None]:
df.info()

In [None]:
df.head()

# Análisis exploratorio de datos (EDA)
## 1. Scatter Plot (gráfico de dispersión) para Salary y Age features
Un gráfico de dispersión (scatter plot) muestra puntos de datos en dos dimensiones, donde cada punto representa una observación en el conjunto de datos. En este caso, podemos visualizar cómo se relacionan las características "Salary" (en el eje y) y "Age" (en el eje x).

In [None]:
plt.figure(figsize=(10, 10))

plt.subplot(221)
plt.scatter(df['Salary'], df['Age'], marker = '>', color = 'gray')
plt.ylabel('Age')
plt.xlabel('Salary')
plt.title('Scatter plot for Salary and Age')


plt.subplot(222)
plt.scatter(df['Age'], df['Years of Experience'], marker = '+', s = 15, color = 'red')
plt.xlabel('Age')
plt.ylabel('Years of Experience')
plt.title('Scatter plot for Years of Experience and Age')

plt.subplot(223)
plt.scatter(df['Salary'], df['Age'], marker = '>', color = 'blue')
plt.ylabel('Age')
plt.xlabel('Salary')
plt.title('Scatter plot for Salary and Age')


plt.subplot(224)
plt.scatter(df['Age'], df['Years of Experience'], marker = '+', s = 15, color = 'green')
plt.xlabel('Age')
plt.ylabel('Years of Experience')
plt.title('Scatter plot for Years of Experience and Age')

plt.tight_layout()
plt.show()

## 2. Bar Plots
**Los gráficos de barras son excelentes para comparar datos categóricos**. Ayudan a comparar los valores de diferentes categorías.

**Cuándo Usar:** Los gráficos de barras son efectivos cuando tienes categorías discretas y deseas comparar sus conteos o valores. Por ejemplo, puedes utilizarlos para comparar las ventas de diferentes productos, las calificaciones de los estudiantes en distintas materias, o la distribución de datos a lo largo de diferentes días.


### Agrupación y Agregación en Pandas

En Pandas, el método `groupby()` se utiliza para agrupar los datos según una o más columnas, y luego realizar operaciones de agregación sobre esos grupos utilizando el método `agg()`. Esto es útil cuando se quiere resumir o analizar datos categóricos.


In [None]:
df.head()

In [None]:
educationSalary = df.groupby('Education Level').agg({'Salary': lambda x: x.mean()}).reset_index()
educationSalary

- **Agrupación**: Agrupa el DataFrame `df` por la columna `"Education Level"`, organizando los datos según los diferentes niveles educativos.
- **Agregación**: Aplica la función `mean()` a la columna `"Salary"` dentro de cada grupo, calculando el salario promedio para cada nivel educativo.
- **Restablecer Índice**: Convierte los índices resultantes (niveles educativos) en una columna regular, creando un nuevo DataFrame `educationSalary` con los niveles educativos y sus salarios promedio correspondientes.


In [None]:
plt.bar(educationSalary['Education Level'], educationSalary['Salary'], color = 'darkblue')
plt.title('Mean of Salary for each Educational Level')
plt.xlabel('Education Level')
plt.ylabel('Mean Salary')
plt.show()

El siguiente código agrupa los datos según el nivel educativo y calcula tanto la media como la desviación estándar de los salarios para cada grupo. A continuación, se visualizan estos resultados en un gráfico de barras, donde cada barra tiene un color diferente. Además, en cada barra se muestra el salario promedio junto con su desviación estándar en el formato "mean ± std".

In [None]:
educationSalary_mean = df.groupby('Education Level').agg({'Salary': lambda x: x.mean()}).reset_index()
educationSalary_std = df.groupby('Education Level').agg({'Salary': lambda x: x.std()}).reset_index()
educationSalary_mean

In [None]:
educationSalary_std

In [None]:
educationSalary_mean = df.groupby('Education Level').agg({'Salary': lambda x: x.mean()}).reset_index()
educationSalary_std = df.groupby('Education Level').agg({'Salary': lambda x: x.min()}).reset_index()


educationSalary = pd.concat([educationSalary_mean.set_index('Education Level'), 
                             educationSalary_std.set_index('Education Level')], 
                            axis=1).reset_index()

# Renombrar
educationSalary.columns = ['Education Level', 'Salary mean', 'Salary min']
educationSalary.head()


In [None]:
educationSalary = df.groupby('Education Level').agg({'Salary': ['mean', 'std']}).reset_index() #Forma alternativa

educationSalary.columns = ['Education Level', 'Salary mean', 'Salary std']# Renombrar las columnas
print(educationSalary)

bars = plt.bar(educationSalary['Education Level'], educationSalary['Salary mean'], color = ['skyblue','blue', 'darkblue'])

for bar, mean, std in zip(bars, educationSalary['Salary mean'], educationSalary['Salary std']):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height()/2, f'{int(mean)} ± {int(std)} \n  [USD]',
             ha='center', va='bottom', fontsize=8, bbox=dict(facecolor='white', edgecolor='white', boxstyle='round,pad=0.4'))

plt.title('Mean of Salary fo each Educational Level' + f'\n {int(mean)} ± {int(std)} [USD]')
plt.xlabel('Education Level')
plt.ylabel('Mean Salary [USD]' )
plt.show()

## Ejercicio: 

- Visualice el salario promedio por género mediante un gráfico de barras.
- A partir del DataFrame anterior que contiene información sobre los salarios asociados a diferentes cargos laborales ("Job Title"), identifique  los cinco títulos de trabajo con los salarios promedio más altos y visualizarlos mediante un gráfico de barras.

In [None]:
df.head()

In [None]:
# TODO: Completa el código para indentificar y visualizar los cinco títulos de trabajo con los salarios más altos.
# Pista: Usa groupby, agg, y sort_values para agrupar los datos, calcular la media y ordenar los datos (sort_values('Salary', ascending= False))

## 3. Histograms

- Los histogramas muestran la distribución de datos continuos. Agrupan los datos en intervalos (bins) y muestran la frecuencia de los puntos de datos dentro de cada intervalo.

- **Los histogramas son útiles para entender la distribución de los datos e identificar patrones, modas o valores atípicos**. Úsalos cuando quieras visualizar la distribución de frecuencias de una sola variable, como las edades de los participantes, los puntajes de pruebas o los niveles de ingresos.

In [None]:
DFN = df.fillna(0)
DFN.head()

In [None]:
from scipy.stats import norm
plt.figure(figsize=(6, 4))
plt.hist(df['Years of Experience'], bins=20, edgecolor='black', color = 'teal')
plt.title('Histogram')
plt.ylabel('Frecuency')
plt.xlabel('Salary')       
plt.show()

In [None]:
plt.figure(figsize=(14, 4))
plt.subplot(121)
plt.hist2d(DFN['Age'], DFN['Salary'], bins=15, edgecolor='black', cmap = 'viridis')#,
plt.title('Histogram')
plt.ylabel('Salary')
plt.xlabel('Age')       
cbar = plt.colorbar()
cbar.set_label('Frequency')

plt.subplot(122)
plt.scatter(DFN['Age'], DFN['Salary'], marker = '+', color = 'skyblue')
plt.title('Scatter plot')
plt.ylabel('Salary')
plt.xlabel('Age')       
plt.show()

## 4. Line Plots

Los gráficos de líneas son útiles para visualizar tendencias y cambios a lo largo del tiempo o en datos continuos. Son efectivos para mostrar patrones, fluctuaciones y relaciones entre variables.

Utiliza gráficos de líneas cuando desees mostrar tendencias, como cambios de una variable a lo largo del tiempo, cambios de temperatura o crecimiento de ventas. También son adecuados para visualizar cómo cambian múltiples variables en relación unas con otras.

In [None]:
educationSalary = df.groupby('Education Level').agg({'Salary': ['mean', 'std']}).reset_index() #Forma alternativa

educationSalary.columns = ['Education Level', 'Salary mean', 'Salary std']# Renombrar las columnas
print(educationSalary)

plt.plot(educationSalary['Education Level'], educationSalary['Salary mean'], color = 'g')
plt.title('Mean of Salary fo each Educational Level')
plt.xlabel('Education Level')
plt.ylabel('Mean Salary [USD]')
plt.show()

Ejemplo del uso de plot line:

In [None]:
np.random.seed(0)
time = np.linspace(0, 220, 100)  # en segundos
signal = np.sin(2 * np.pi * 50 * time)  # señal sinusoidal (frecuencia de 60 Hz)

noise = np.random.normal(0, 0.2, time.shape) # ruido gaussiano
signal_with_noise = signal + noise

plt.figure(figsize=(10, 5))
plt.plot(time, signal_with_noise, label='Señal con ruido', color='blue')
plt.plot(time, signal, label='Señal original (sin ruido)', color='red', linestyle='--')

plt.title('Visualización de una señal con ruido')
plt.xlabel('Tiempo (s)')
plt.ylabel('Voltaje (V)')
plt.legend()
plt.grid(True)
plt.show()


## 5. Box Plot

Los gráficos de caja proporcionan información sobre la distribución, la mediana y los valores atípicos de un conjunto de datos. Ayudan a identificar la dispersión y la tendencia central de los datos.

Utilice gráficos de caja para comparar distribuciones entre diferentes categorías o grupos. Son útiles para detectar valores atípicos y comprender la dispersión de los datos. Por ejemplo, puede utilizarlos para comparar la distribución de las puntuaciones de los exámenes por asignatura o la distribución de los salarios por puesto de trabajo.


<div style="text-align: center;">
    <img src="https://miro.medium.com/max/9000/1*2c21SkzJMf3frPXPAR_gZA.png" title="Title text" width="50%" height="50%" />
</div>

### Explicación del Boxplot

1. **Median (Mediana):**
   - Representada por la línea amarilla dentro de la caja. La mediana es el valor central que divide los datos en dos mitades, lo que significa que el 50% de los valores están por debajo de este punto y el otro 50% por encima.

2. **Interquartile Range (IQR - Rango Intercuartílico):**
   - El IQR es la longitud de la caja, que va desde el primer cuartil (Q1 o 25º percentil) hasta el tercer cuartil (Q3 o 75º percentil). Este rango abarca el 50% central de los datos y es una medida de dispersión.

3. **Q1 (Primer Cuartil):**
   - Representa el 25º percentil de los datos, lo que significa que el 25% de los valores están por debajo de este punto.

4. **Q3 (Tercer Cuartil):**
   - Representa el 75º percentil de los datos, es decir, el 75% de los valores están por debajo de este punto. 

5. **"Minimum" and "Maximum" (Valores Mínimo y Máximo):**
   - Los límites del boxplot se extienden hasta el valor mínimo (Q1 - 1.5*IQR) y el valor máximo (Q3 + 1.5*IQR). Estos límites ayudan a identificar el rango de los datos que no se consideran outliers.

6. **Outliers (Valores Atípicos):**
   - Los puntos fuera de los "bigotes" se consideran outliers o valores atípicos. Estos son valores que están significativamente lejos del resto de los datos y pueden indicar variabilidad inusual o errores.

7. **"Minimum" and "Maximum" Lines:**
   - Estas líneas negras en los extremos de los extremos marcan los límites dentro de los cuales la mayoría de los datos se encuentran. Cualquier valor fuera de estos límites se marca como outlier.

---

Este tipo de gráfico es útil para visualizar la distribución de un conjunto de datos, resumiendo su rango, su dispersión y la presencia de outliers.


In [None]:
df.head()

In [None]:
df_gender = df['Gender'].unique()
print(df_gender)
gender_data = [df[df['Gender'] == type_gender]['Salary'] for type_gender in df_gender]
gender_data[0][0] = 5e5 #outliyer
plt.figure(figsize=(12, 6))
bplots = plt.boxplot(gender_data, labels= df_gender, patch_artist=True)

plt.title('Distribución de Salarios por género')
plt.xlabel('Género')
plt.ylabel('Salario')
plt.xticks(rotation=35, ha='right')


colors = ['orange', 'tomato']
for patch, color in zip(bplots['boxes'], colors):
    patch.set_facecolor(color)
plt.show()

In [None]:
job_titles = df['Job Title'].unique()[5:12]
print(job_titles[:5])
salary_data = [df[df['Job Title'] == job]['Salary'] for job in job_titles]

plt.figure(figsize=(12, 6))
plt.boxplot(salary_data, labels=job_titles, patch_artist=True)

plt.title('Distribución de Salarios por Título de Trabajo')
plt.xlabel('Título de Trabajo')
plt.ylabel('Salario')
plt.xticks(rotation=35, ha='right')
plt.show()

# 6. Area Plot

 Los gráficos de área muestran las tendencias de los datos acumulados a lo largo del tiempo o de variables continuas. Son útiles para comprender la contribución de cada categoría al total.

Utilice gráficos de área para visualizar cómo las partes contribuyen al todo. Suelen utilizarse para el seguimiento de valores acumulativos, como las ventas por categoría de producto a lo largo del tiempo o la distribución de gastos en un presupuesto.

In [None]:
data = {
    'Month': ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun'],
    'Product_1': [10, 15, 12, 14, 12, 20],
    'Product_2': [12, 7, 13, 13, 19, 21],
    'Product_3': [5, 9, 6, 8, 10, 13]
}

df2 = pd.DataFrame(data)
df2.set_index('Month', inplace=True) #el mes como el index
print(df2)

plt.figure(figsize=(8, 4))

plt.fill_between(df2.index, df2['Product_1'], color='darkblue', alpha=0.6, label='Product 1')
plt.fill_between(df2.index, df2['Product_2'], color='gray', alpha=0.85, label='Product 2')
plt.fill_between(df2.index, df2['Product_3'], color='orange', alpha=0.28, label='Product 3')

plt.title('Ventas por Producto a lo Largo del Tiempo', fontsize=16, fontweight='bold', color='#333333')
plt.xlabel('Mes', fontsize=12, color='#333333')
plt.ylabel('Ventas', fontsize=12, color='#333333')
plt.legend(title='Producto', loc='upper left', fontsize=10, title_fontsize='13')

plt.grid(True, which='both', linestyle='--', linewidth=0.5, color='k')
plt.xticks(fontsize=10, color='gray')
plt.yticks(fontsize=10, color='gray')
plt.show()

In [None]:
data = {
    'Month': ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun'],
    'Product_1': [10, 15, 12, 14, 12, 20],
    'Product_2': [12, 7, 13, 13, 19, 21],
    'Product_3': [5, 9, 6, 8, 10, 13]
}

df2 = pd.DataFrame(data)
df2.set_index('Month', inplace=True) #el mes como el index
print(df2)
colors = ['#FF9999', 'skyblue', '#99FF89']
ax = df2.plot(kind='area', stacked=True, color=colors, alpha=0.5, figsize=(6, 4))

plt.title('Ventas por Producto a lo Largo del Tiempo')
plt.xlabel('Mes')
plt.ylabel('Ventas')
plt.grid(True, linestyle='--', linewidth=0.2, color='k')
plt.show()

### Ejercicio: 
Realice el gráfico anterior sin sobreponer la información con la función stacked.

In [None]:
# Escribe tu código aquí:

# 7. Pie Chart

Los gráficos circulares muestran la proporción de cada categoría en un conjunto de datos. Representan partes de un todo.

Utilice los gráficos circulares cuando desee mostrar la contribución relativa de las distintas categorías a un total. Sin embargo, **utilícelos con precaución, ya que pueden resultar difíciles de interpretar cuando hay demasiadas categorías o cuando las diferencias en las proporciones son pequeñas.**

In [None]:
df.head()

### Distribución de género

In [None]:
gender_counts = df['Gender'].value_counts()

plt.figure(figsize=(4, 4))
plt.pie(gender_counts, labels=gender_counts.index, autopct='%1.1f%%', colors=['blue', 'red'], startangle=360,
         textprops={'color':'white', 'fontsize': 10})
plt.title('Distribución de Género')
plt.show()


### Distribución de niveles de educación
Realizar un gráfico circular para visualizar la distribución de los ejemplos contenidos en el dataset de acuerdo a su nivel de educación.

In [None]:
# Escribe tu código aquí:

El parámetro `startangle` en la función `plt.pie()` de `matplotlib` se utiliza para especificar el ángulo en el que comienza a dibujarse el primer segmento del gráfico de pastel (pie chart). Este ángulo se mide en grados, comenzando desde el eje horizontal derecho (a las 3 en punto en un reloj).

- **`startangle=0`**: El primer segmento del gráfico de pastel comenzará a dibujarse desde el ángulo de 0 grados, que está alineado con el eje horizontal derecho (la posición de las 3 en punto en un reloj).
- **`startangle=90`**: El primer segmento comenzará a dibujarse desde la parte superior (a las 12 en punto en un reloj).
- **`startangle=180`**: El primer segmento comenzará a dibujarse desde el eje horizontal izquierdo (a las 9 en punto en un reloj).
- **`startangle=140`**: En este caso específico, el primer segmento comenzará a dibujarse desde 140 grados, lo que significa que el gráfico comenzará en una posición ligeramente por debajo y a la izquierda del centro del gráfico.


# Distribución de títulos de trabajo

In [None]:
job_title_counts = df['Job Title'].value_counts()

plt.figure(figsize=(5, 5))
plt.pie(job_title_counts, labels=job_title_counts.index, autopct='%1.1f%%', startangle=140)
plt.title('Distribución de Títulos de Trabajo')
plt.show()

Si seleccionamos solo algunos títulos de trabajo, se hace difícil interpretar el gráfico y realizar comparaciones.

In [None]:
job_title_counts = df['Job Title'].value_counts()[:8]
print(job_title_counts)

plt.figure(figsize=(5, 5))
plt.pie(job_title_counts, labels=job_title_counts.index, autopct='%1.1f%%', startangle=140)
plt.title('Distribución de Títulos de Trabajo')
plt.show()

In [None]:
top_n = 5
job_title_counts = df['Job Title'].value_counts().nlargest(top_n)
job_title_counts.plot(kind='pie', autopct='%1.1f%%', startangle=140, figsize=(5, 5))
plt.title(f'Distribución de los {top_n} Principales Títulos de Trabajo')
#plt.ylabel('')
plt.show()

# 9. Hexbin Plot
Los gráficos Hexbin visualizan la distribución de un gran conjunto de datos a través de intervalos hexagonales. Ayudan con la densidad de datos y el solapamiento.

CUtilice gráficos hexagonales **cuando tenga un gran conjunto de datos con puntos de datos superpuestos**. Proporcionan una manera de mostrar la densidad de datos y patrones, especialmente en gráficos de dispersión donde muchos puntos se superponen. 

In [None]:
plt.figure(figsize=(14, 4))
plt.subplot(121)
hb = plt.hexbin(df['Years of Experience'],
 df['Salary'], gridsize=10, cmap='jet', mincnt=1)
plt.colorbar(hb, label='Cuenta de Densidad')
plt.title('Relación entre Años de Experiencia y Salario')
plt.xlabel('Años de Experiencia')
plt.ylabel('Salario')
plt.subplot(122)
plt.scatter(df['Years of Experience'], df['Salary'])
plt.title('Relación entre Años de Experiencia y Salario')
plt.xlabel('Años de Experiencia')
plt.ylabel('Salario')

- **`gridsize=20`**: Define el tamaño de la cuadrícula de hexágonos. Un número mayor de `gridsize` hace hexágonos más pequeños, mostrando más detalles.
- **`cmap='Blues'`**: Aplica un mapa de colores a los hexágonos, donde colores más oscuros representan mayor densidad de puntos.
- **`mincnt=1`**: Asegura que los hexágonos vacíos no se muestren (solo se mostrarán hexágonos con al menos un punto).


In [None]:
df.head()

In [None]:
# Calculate pairwise correlation coefficients
matrix = df[['Years of Experience', 'Age', 'Salary']].dropna()
cov_matrix =  matrix.cov() #np.cov(matrix, rowvar = False)
corr_matrix = matrix.corr()

print("Covariance Matrix:")
print(cov_matrix)


plt.figure(figsize=(12, 5))
plt.subplot(121)
sns.heatmap(corr_matrix, annot=True,
            cmap="jet", vmin=0.0, vmax=1.0)
plt.title('Correlation Heatmap')
plt.subplot(122)
sns.heatmap(cov_matrix, annot=True,
            cmap="jet", vmin=0.0, vmax=1.0)
plt.title('Covariance Heatmap')
plt.show()

# Visualización de Datos con `sns.pairplot`

La función `pairplot` de Seaborn es una herramienta útil para explorar las relaciones entre múltiples variables en un dataset. Genera una matriz de gráficos de dispersión que muestra interacciones bivariadas y distribuciones univariadas, permitiendo la identificación de patrones, correlaciones, y outliers.

### Ejemplo Visual

Si tienes un DataFrame con las variables `X1`, `X2`, y `X3`, el `pairplot` podría verse así:

|      | `X1`                             | `X2`                            | `X3`                            |
|------|----------------------------------|----------------------------------|----------------------------------|
| `X1` | Histograma/Distribución de `X1`  | Dispersión de `X1` vs `X2`       | Dispersión de `X1` vs `X3`       |
| `X2` | Dispersión de `X2` vs `X1`       | Histograma/Distribución de `X2`  | Dispersión de `X2` vs `X3`       |
| `X3` | Dispersión de `X3` vs `X1`       | Dispersión de `X3` vs `X2`       | Histograma/Distribución de `X3`  |

En resumen, los gráficos en la diagonal te permiten observar la distribución de cada variable individualmente, mientras que los gráficos fuera de la diagonal muestran las relaciones entre las diferentes variables.

In [None]:
df.head()

In [None]:
import seaborn as sns
sns.pairplot(df, hue= 'Education Level', height=3)

In [None]:
import seaborn as sns
sns.pairplot(df, hue= 'Education Level', height=5, diag_kind="hist")

In [None]:
import seaborn as sns
sns.pairplot(df, hue= 'Job Title', height=5)

# Ejemplo: Dataser Iris

In [None]:
import seaborn as sns
iris = sns.load_dataset('iris')
%matplotlib inline
import seaborn as sns; sns.set()
print(iris.head())
sns.pairplot(iris, hue='species', height=3);

# Visualización 3D

In [None]:
iris

In [None]:
import plotly.express as px
import seaborn as sns


iris = sns.load_dataset('iris')


fig = px.scatter_3d(
    iris, 
    x='sepal_length',  
    y='sepal_width',   
    z='petal_length',  
    color='species',   
    title='Iris dataset en 3D'
)
fig.show()


In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns

fig = plt.figure()
fig.set_size_inches(10, 8)
ax = fig.add_subplot(111, projection='3d')


for species in iris['species'].unique():
    species_data = iris[iris['species'] == species]
    ax.scatter(
        species_data['sepal_length'], 
        species_data['sepal_width'], 
        species_data['petal_length'], 
        label=species
    )

ax.set_xlabel('Sepal Length')
ax.set_ylabel('Sepal Width')
ax.set_zlabel('Petal Length')
ax.set_title('Iris dataset en 3D')


ax.set_xlim([iris['sepal_length'].min() - 10, iris['sepal_length'].max() + 10])

ax.legend()
plt.subplots_adjust(left=2, right=3, top=0.9, bottom=0.1)

plt.show()




In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns

# Cargar el dataset Iris usando seaborn
iris = sns.load_dataset('iris')

fig = plt.figure(figsize=(8,12))
ax = fig.add_subplot(111, projection='3d')

for species in iris['species'].unique():
    species_data = iris[iris['species'] == species]
    ax.scatter(
        species_data['sepal_length'], 
        species_data['sepal_width'], 
        species_data['petal_length'], 
        label=species
    )

ax.set_xlabel('Sepal Length')
ax.set_ylabel('Sepal Width')
ax.set_zlabel('Petal Length')
ax.set_title('Iris dataset en 3D')

ax.set_xlim([iris['sepal_length'].min() - 1, iris['sepal_length'].max() + 1])
ax.set_ylim([iris['sepal_width'].min() - 1, iris['sepal_width'].max() + 1])
ax.set_zlim([iris['petal_length'].min() - 1, iris['petal_length'].max() + 1])

ax.legend()


plt.subplots_adjust(left=0.1, right=2, top=0.9, bottom=0.1)

plt.show()

[Documentación de `seaborn.pairplot`](https://seaborn.pydata.org/generated/seaborn.pairplot.html)
