# Plots (Gráficos)

El uso de gráficos en el análisis de datos es esencial para transformar información cruda en percepciones significativas y comprensibles. Los gráficos no solo facilitan la identificación de patrones y tendencias, sino que también mejoran la comunicación de resultados a audiencias diversas. En el análisis de datos, los gráficos sirven como herramientas poderosas que permiten visualizar datos de manera efectiva y facilitan la toma de decisiones informadas.

La importancia de los gráficos radica en su capacidad para simplificar datos complejos y abstractos, haciendo que la información sea más accesible. Los beneficios incluyen la capacidad de revelar patrones, destacar anomalías, y proporcionar una visión rápida de las relaciones entre variables. Además, los gráficos son herramientas persuasivas que pueden ayudar a comunicar resultados a audiencias no técnicas, facilitando una comprensión más profunda de los insights extraídos del análisis de datos.

**Pandas**, una biblioteca popular de Python para análisis de datos, proporciona herramientas integradas para crear gráficos de manera rápida y sencilla. Esta funcionalidad simplifica la visualización de datos directamente desde estructuras de datos como DataFrames, permitiendo a los usuarios explorar y entender rápidamente la distribución y relaciones en sus conjuntos de datos.

Por otro lado, las bibliotecas externas **Matplotlib** y **Seaborn** ofrecen funcionalidades más avanzadas y personalizables para la creación de gráficos. Matplotlib es una biblioteca de visualización de datos ampliamente utilizada que proporciona un control detallado sobre el diseño y estilo de los gráficos. Seaborn, construida sobre Matplotlib, simplifica aún más la creación de gráficos atractivos con menos código, ofreciendo paletas de colores y estilos predefinidos.



***
## Pandas ```.plot(...)```

La clase ```pd.DataFrame```, de la librería Pandas, posee el método llamado ```.plot()```. Este método otorga al usuario la capacidad de obtener un rápido y cómodo acceso a diversos gráficos. Estos gráficos toman la data del ```pd.DataFrame``` o de una ```pd.Series```.

* [Pandas plot() Documentación Oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html)
* [w3schools Pandas plot()](https://www.w3schools.com/python/pandas/pandas_plotting.asp)

A continuación, se presentan algunos de los principales gráficos disponibles:

In [None]:
### Imports ###
import pandas as pd
import numpy as np

### Gráfico de línea - lineplot

In [None]:
# Generar puntos aleatorios
np.random.seed(42)
num_points = 100
random_data = np.cumsum(np.random.randn(num_points))

# Generar la pd.Series
data = pd.Series(random_data)

# Graficar usando el método .plot()
data.plot(kind='line')

### Gráfico de barras - barplot

In [None]:
num_points = 10
categorias = ['A', 'B', 'C', 'D']
random_data = np.random.randint(1, 10, size=(num_points, len(categorias)))

data = pd.DataFrame(random_data, columns=categorias)
data.plot(kind='bar', stacked=True)

In [None]:
data.plot(kind='bar')

### Histograma - histogram

In [None]:
num_points = 1000
random_data = np.random.normal(2, 1.5, size = num_points)

# Generar la pd.Series
data = pd.Series(random_data)

# Graficar usando el método .plot()
data.plot(kind='hist')

### Gráfico de Densidad - kdeplot

In [None]:
num_points = 1000
random_data = np.random.normal(2, 1.5, size = num_points)

# Generar la pd.Series
data = pd.Series(random_data)

# Graficar usando el método .plot()
data.plot(kind='kde')

### Gráfico de Dispersión - scatterplot

In [None]:
num_points = 100
data_x = np.random.randint(1, 200, size=num_points) * np.random.normal(1, 0.2, size=num_points)
data_y = np.random.randint(-10, 10, size=num_points) + data_x * np.random.normal(1.5, 0.5, size=num_points) 

data = pd.DataFrame(data = {'x': data_x, 'y': data_y})

data.plot(kind='scatter', x='x', y='y')

***
## Matplotlib

**Links útiles**
* [Matplotlib - Quick start guide](https://matplotlib.org/stable/users/explain/quick_start.html#a-simple-example)
* [Matplotlib - Cheatsheet](https://matplotlib.org/cheatsheets/)


Para importar la librería usaremos el siguiente comando:

In [None]:
import matplotlib.pyplot as plt

# alternativamente, usar: from matplotlib import pyplot as plt

### Figuras y Ejes (Figures and Axes):



#### Figuras:

* Definición: Una figura es la ventana o página en la que se crea o dibuja un gráfico. Puedes pensar en ella como el lienzo en blanco donde se construye tu visualización.
* Creación: Para crear una figura, puedes usar ```plt.figure()```.

In [None]:
fig = plt.figure(figsize=(9, 6)) # figsize le cambia el tamaño

#### Ejes:
* Definición: Los ejes son las áreas dentro de una figura donde se representan los datos. Puedes tener varios ejes en una sola figura.

In [None]:
# Creación de ejes usando add_axes()
ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])  # [left, bottom, width, height]

### Subgráficos (Subplots):

#### Creación de Subgráficos:
* Definición: Los subgráficos son disposiciones de ejes en una figura, permitiéndote mostrar varios gráficos en una sola figura.
* Creación: Puedes crear subgráficos utilizando ```plt.subplots(rows, cols)```.

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=2)

#### Acceso a Ejes en Subgráficos:
Puedes acceder a ejes específicos en subgráficos utilizando la notación de matriz. *(elementos a modo de ejemplo)*

```python
axes[0, 0].plot(x, y1)
axes[0, 1].scatter(x, y2)
axes[1, 0].bar(categories, values)
axes[1, 1].hist(data, bins=20)
```

### Detalles Adicionales:

```python
    ### Títulos y etiquetas ###
    ax.set_title("Título del Gráfico")
    ax.set_xlabel("Etiqueta del Eje X")
    ax.set_ylabel("Etiqueta del Eje Y")

    ### Leyendas ###
    ax.plot(x, y, label='Serie 1')
    ax.legend()

    ### Varios ###
    ax.plot(x, y, color='red', linestyle='--', marker='o', markersize=8)

    ### Escalas y límites ###
    ax.set_xlim(0, 10)
    ax.set_ylim(0, 100)
    ax.set_yscale('log')  # Escala logarítmica en el eje Y
```


***
## Seaborn

**Links útiles**
* [Seaborn - Quick start guide](https://seaborn.pydata.org/)
* [Seaborn - Cheatsheet](https://www.datacamp.com/cheat-sheet/python-seaborn-cheat-sheet)


Para importar la librería usaremos el siguiente comando:

In [None]:
import seaborn as sns

#### Lineplot

In [None]:
# Genero data
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)

# Creo las líneas usando Seaborn
sns.lineplot(x=x, y=y1, label='Seno', color='blue', linestyle='--')
sns.lineplot(x=x, y=y2, label='Coseno', color='red', linestyle='-.')

# Títulos y leyendas
plt.title('Sine and Cosine Functions')
plt.xlabel('x')
plt.ylabel('y')

plt.legend()

plt.show()

#### Scatterplot

In [None]:
# Genero data
np.random.seed(42)
x = np.random.normal(0, 1, 100)
y = np.random.normal(0, 1, 100)
category = np.random.choice(['A', 'B'], 100)

# Creo DataFrame
df = pd.DataFrame({'X': x, 'Y': y, 'Category': category})

# Scatter plot con Seaborn
sns.scatterplot(data=df, x='X', y='Y', hue='Category', palette='Set1', alpha=0.8)

plt.title('Scatter Plot')
plt.xlabel('X')
plt.ylabel('Y')

plt.show()

#### Histograma

In [None]:
# Genero data
np.random.seed(42)
data = np.random.normal(0, 1, 1000)

# Histograma usando Seaborn
sns.histplot(data, bins=30, color='skyblue')

plt.title('Histograma')
plt.xlabel('Valores')
plt.ylabel('Frecuencia')

plt.show()

In [None]:
# Genero data
np.random.seed(42)
data = np.random.normal(0, 1, 1000)

# KDE plot con Seaborn
sns.kdeplot(data, color='purple', fill=True)

plt.title('Kernel Density Estimate (KDE)')
plt.xlabel('Valores')
plt.ylabel('Densidad')

plt.show()

***
**Para explorar las capacidades de Matplotlib y Seaborn se recurrirá al uso de ejemplos. Estos irán aumentando en complejidad.**

***Importante***: Matplotlib y Seaborn pueden usarse de forma conjunta dentro de un mismo gráfico.

#### Ejemplo 1:

In [None]:
# Generar puntos aleatorios
np.random.seed(42)
num_points = 100
random_data_1 = np.cumsum(np.random.randn(num_points))
random_data_2 = np.cumsum(np.random.randn(num_points))

# Generar la pd.Series
serie_1 = pd.Series(random_data_1)
serie_2 = pd.Series(random_data_2)

In [None]:
# Genero la estructura para los gráficos
fig, axes = plt.subplots(1,2, figsize=(20,6))

# Grafico la primer serie
axes[0].plot(serie_1, c = 'red')
# Defino el título y los nombres de los ejes
axes[0].set_title('Lineplot Serie 1')
axes[0].set_xlabel('Serie 1 (index)')
axes[0].set_ylabel('Valores')

# Grafico la segunda serie
axes[1].plot(serie_2, c = 'blue')
axes[1].set_title('Lineplot Serie 2')
axes[1].set_xlabel('Serie 2 (index)')
axes[1].set_ylabel('Valores')

plt.show()


#### Ejemplo 2

In [None]:
# Genero la estructura para los gráficos
fig, axes = plt.subplots(1,2, figsize=(20,6))

###########################
# Gráfico izquierda
###########################

# Grafico la primer serie
axes[0].plot(serie_1, c = 'red', zorder = 0, label = 'Serie')

# Calculo el máximo y mínimo de la serie; los localizo en el gráfico

x_max = serie_1.idxmax()
y_max = serie_1[x_max]

axes[0].scatter(x_max, y_max, c = 'yellow', zorder = 10, label = 'Maximo')

x_min = serie_1.idxmin()
y_min = serie_1[x_min]

axes[0].scatter(x_min, y_min, c = 'orange', zorder = 10, label = 'Minimo')

# Calculo la media de la serie y la localizo en el gráfico
mean = serie_1.mean()

axes[0].axhline(mean, linestyle='--', label = 'Media', c= '#fcba03')

# Grafico las labels de cada elemento
axes[0].legend()

# Defino el título y los nombres de los ejes
axes[0].set_title('Lineplot Serie 1')
axes[0].set_xlabel('Serie 1 (index)')
axes[0].set_ylabel('Valores')

###########################
# Gráfico derecha
###########################

# Grafico la segunda serie
axes[1].plot(serie_2, c = 'blue')

axes[1].set_title('Lineplot Serie 2')
axes[1].set_xlabel('Serie 2 (index)')
axes[1].set_ylabel('Valores')

# Calculo percentiles y los localizo en el gráfico

q25, q50, q75 = serie_2.quantile([0.25, 0.50, 0.75])

axes[1].axhline(q25, linestyle='--', label = 'Q25', c= '#03fc3d')
axes[1].axhline(q50, linestyle='--', label = 'Q50', c= '#26b021')
axes[1].axhline(q75, linestyle='--', label = 'Q75', c= '#03fc3d')

# Grafico las labels de cada elemento
axes[1].legend()

plt.show()

#### Ejemplo 3

In [None]:
# Genero la estructura para los gráficos
fig, axes = plt.subplots(1,2, figsize=(20,6))

###########################
# Gráfico izquierda
###########################

# Grafico la primer serie
axes[0].plot(serie_1, c = 'red', zorder = 0, label = 'Serie 1')
axes[0].plot(serie_2, c = 'blue', zorder = 0, label = 'Serie 2')


# Fill between the series
x = range(0, num_points) # --> variable auxliar
axes[0].fill_between(x, serie_1, serie_2,
                     where=(serie_1 <= serie_2),
                     color='lightblue',
                     interpolate=True,
                     alpha=0.3,
                     label='Serie 1 <= Serie 2')
axes[0].fill_between(x, serie_1, serie_2,
                     where=(serie_1 > serie_2),
                     color='lightcoral',
                     interpolate=True,
                     alpha=0.3,
                     label='Serie 1 > Serie 2')

# Grafico las labels de cada elemento
axes[0].legend()


# Defino el título y los nombres de los ejes
axes[0].set_title('Lineplot Serie 1 y 2')
axes[0].set_xlabel('Serie (index)')
axes[0].set_ylabel('Valores')

###########################
# Gráfico derecha
###########################

serie_mult = serie_1 * serie_2

axes[1].plot(serie_mult, c = 'violet', zorder = 0, label = 'Serie Combinada')

# Calculo max y min de la nueva serie
x_max = serie_mult.idxmax()
y_max = serie_mult[x_max]

axes[1].scatter(x_max, y_max, c = 'blue', zorder = 10, label = 'Maximo')

x_min = serie_mult.idxmin()
y_min = serie_mult[x_min]

axes[1].scatter(x_min, y_min, c = 'cyan', zorder = 10, label = 'Minimo')

axes[1].plot((x_max, x_min), (y_max, y_min), c = '#1a9cc4', alpha = 0.55, linestyle = 'dotted', label='Línea entre max y min', zorder = 20)

axes[1].set_title('Lineplot Serie Combinada')
axes[1].set_xlabel('Serie (index)')
axes[1].set_ylabel('Valores')

# Grafico las labels de cada elemento
axes[1].legend()

plt.show()

#### Ejemplo 4

In [None]:
x1 = np.random.normal(loc=5, scale=2, size=10000)
x2 = np.random.normal(loc=4.5, scale=2.75, size=10000)

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(20, 6))
plt.suptitle('Análisis distribuciones', fontsize = 14, weight='bold')

######################
# Gráfico 1
######################
sns.kdeplot(x1, c = '#d43f1e', ax = axes[0], label='Serie 1')
sns.kdeplot(x2, c = '#1356c2', ax = axes[0], label='Serie 2')

axes[0].set_title('PDF')
axes[0].set_xlabel('Valores')
axes[0].set_ylabel('Densidad')

axes[0].legend()

######################
# Gráfico 2
######################
sns.kdeplot(x1, c = '#d43f1e', cumulative=True,  ax = axes[1], label='Serie 1')
sns.kdeplot(x2, c = '#1356c2', cumulative=True, ax = axes[1], label='Serie 2')

axes[1].set_title('CDF')
axes[1].set_xlabel('Valores')
axes[1].set_ylabel('Densidad')

axes[1].legend()

######################
# Gráfico 3
######################

# Genero variables auxiliares para el gráfico

# Distribuciones ordenadas ascendentemente
sorted_x1 = sorted(x1)
sorted_x2 = sorted(x2)

# Calculo los valores máximos y mínimos
x1_max = x1.max()
x1_min = x1.min()

x2_max = x2.max()
x2_min = x2.min()

axes[2].scatter(sorted_x1, sorted_x2, zorder = 0, s = 6, alpha = 0.25, c='purple')
axes[2].plot((x1_max, x1_min), (x2_max, x2_min), c = 'gray', zorder = 10, linestyle='--')

axes[2].set_title('QQ Plot')
axes[2].set_xlabel('Valores X1')
axes[2].set_ylabel('Valores X2')

plt.show()

#### Ejemplo 5

In [None]:
# Generate some sample data
months = np.arange(1, 13)

product1_sales = np.random.randint(2500, 5000, size=12)
product2_sales = np.random.randint(2500, 5000, size=12)

product1_price = np.random.normal(28, 4, size=12)
product2_price = np.random.normal(28, 5, size=12)

product1 = (product1_sales * product1_price).astype(int)
product2 = (product2_sales * product2_price).astype(int)

In [None]:
# Create a figure and primary axes
plt.figure(figsize=(10, 6))
ax1 = plt.subplot()

# Plot sales of product 1
ax1.plot(months, product1, color='#2427f0', marker='o', label='Producto 1')
ax1.plot(months, product2, color='#d11547', marker='o', label='Producto 2')

ax1.set_xlabel('Month')
ax1.set_ylabel('Product Sales')
ax1.tick_params(axis='y')

# Create secondary axes for the bar plot
ax2 = ax1.twinx()
ax2.set_ylim(0, 1)

# Calculate the ratio of product 1 to product 2
product1_ratio = product1 / (product1 + product2)

# Plot bar plot for sales ratio
ax2.bar(months, sales_ratio, color='#7cf2bb', alpha=0.3, label='Ratio Producto 1')

# Set x-axis ticks and labels
ax1.set_xticks(months)
ax1.set_xticklabels(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

ax2.set_ylabel('Ratio Producto 1')

# Add legend
lines1, labels1 = ax1.get_legend_handles_labels()
lines2, labels2 = ax2.get_legend_handles_labels()
ax1.legend(lines1 + lines2, labels1 + labels2, loc='upper left')

# Add title
plt.title('Ventas')

# Show plot
plt.show()


#### Ejemplo X

In [None]:
from sklearn.datasets import make_regression

X1, y1 = make_regression(n_samples=250, n_features=1, noise=1.25, bias=0.50, random_state=42)
X2, y2 = make_regression(n_samples=250, n_features=1, noise=1.5, bias=0.20, random_state=42)
X3, y3 = make_regression(n_samples=250, n_features=1, noise=2, bias=0.0, random_state=42)
X4, y4 = make_regression(n_samples=250, n_features=1, noise=1, bias=1, random_state=42)

X = np.concatenate([X1.flatten() * np.random.uniform(1, 20, size=250),
                    X2.flatten() * np.random.exponential(2.5, size=250),
                    X3.flatten() * np.random.uniform(0.5, 2.5, size=250),
                    X4.flatten() * np.random.normal(8, 2.8, size = 250)])

y = np.concatenate([y1.flatten(), y2.flatten(), y3.flatten(), y4.flatten()])

In [None]:
data = pd.DataFrame(data = {'Clase': [0] * 250 + [1] * 250 + [2] * 250 + [3] * 250,
                            'X': X,
                            'y': y
                           }   
                    )

In [None]:
num_cols = 2
num_rows = 2
fig, axes = plt.subplots(num_rows,num_cols, figsize=(10, 10))

for row in range(num_rows):

    for col in range(num_cols):

        ax = axes[row, col]
        class_idx = (row * num_cols + col)

        sns.scatterplot(data = data[data['Clase']==class_idx],
                        x = 'X', y = 'y',
                        color = sns.color_palette('pastel')[class_idx],
                        ax = ax)

        ax.set_title(f'Scatter Clase {class_idx}')
        ax.set_xlabel('X')
        ax.set_ylabel('y')

        