# EDA - Visualización

**Visualización de datos y creación de resúmenes estadísticos.**
<BR>

Hacer visualizaciones informativas (también llamadas gráficos o plots) es una de las tareas más importantes en el análisis de datos.
Estas visualizaciones pueden tener distintos propósitos:

* Exploratorio: para detectar valores atípicos (outliers), identificar la necesidad de transformar datos o generar ideas para modelos.

* Comunicativo o final: en algunos casos, el objetivo es construir una visualización interactiva (por ejemplo, para la web) como producto final del análisis.
<BR>

Python ofrece muchas bibliotecas para crear visualizaciones estáticas o dinámicas. Sin embargo, la más importante es Matplotlib, y muchas otras herramientas se basan en ella. Por ello veremos también Seaborn (sns)

Armamos una función que genera/simula calificaciones de estudiantes

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

In [2]:
from scipy.stats import truncnorm
import numpy as np

def gen_notas(media, desvio, n, minimo=1, maximo=10):
    """
    Genera una distribución normal truncada entre 'minimo' y 'maximo'.

    Parámetros:
    -----------
    media : float
        Media (mu) de la distribución.
    desvio : float
        Desviación estándar (sigma).
    n : int
        Número de observaciones a generar.
    minimo : float, opcional
        Valor mínimo permitido (default = 1).
    maximo : float, opcional
        Valor máximo permitido (default = 10).

    Retorna:
    --------
    np.ndarray
        Array de NumPy con los valores generados.
    """
    # Calcular los límites normalizados
    a, b = (minimo - media) / desvio, (maximo - media) / desvio

    # Generar muestra truncada
    muestra = truncnorm(a, b, loc=media, scale=desvio).rvs(n).round(1)

    return np.array(muestra)

## Ejemplo de visualización con Matplotlib


### Generar variables y valores

In [5]:
# Generamos notas para un grupo de estudiantes, usando la funcion gen_notas()
# array = gen_notas(mean, desv, n)
notas = pd.DataFrame(
    {
        'grupo_1': gen_notas(8, 1, 100000),
        'grupo_1': gen_notas(5, 3, 100000),
    }
)
notas.describe()

Unnamed: 0,grupo_1
count,100000.0
mean,5.217677
std,2.217939
min,1.0
25%,3.5
50%,5.2
75%,6.9
max,10.0


### Histograma simple

In [None]:
# Veamos de graficar un histograma (distribución de las notas)
# Luego probemos a agregar bins, color, alpha


### Histograma comparativo - Versión 1

In [4]:
# Veamos un resumen estadístico
notas.describe()

Unnamed: 0,grupo_1
count,1000.0
mean,8.0071
std,0.925287
min,5.0
25%,7.4
50%,8.0
75%,8.7
max,10.0


In [None]:
# Queremos hacer un gráfico, pero comparativo
plt.figure(figsize=((10,6)))

# Grupo 1
plt.subplot(1,2,1)
plt.hist(notas["grupo_1"], bins="auto", color="skyblue", alpha=0.5, label="Grupo 2")
plt.title("Histograma de notas")
plt.legend()

### Histograma comparativo - Versión 2

In [None]:
# Queremos hacer un gráfico, pero comparativo


### Boxplot simple

In [None]:
# Veamos como graficar un boxplot


## Ejemplo de visualización con Seaborn

Seaborn, que se basa en Matplotlib, ofrece una interfaz más sencilla para crear
gráficos estadísticos. Continuando con nuestro conjunto de datos anterior, podemos
usar Seaborn para crear un gráfico de distribución.


Sintaxis:
<BR>
`sns.barplot(x='columna_x', y='columna_y', data=df)`

Ventajas de sns.histplot()

* Integra directamente con pandas (solo pasás data= , x=).
* Tiene parámetros como hue, kde, stat, etc.
* Estéticamente más agradable (usa el estilo por defecto de Seaborn).

### Histograma simple

### Histograma comparativo - Version 1

### Histograma comparativo - Versión 2

### Boxplot simple

### Boxplot comparativo

# EDA: Base de datos "Tips" de Seaborn
En esta sección, realizaremos un análisis exploratorio utilizando la base de datos
"tips" de Seaborn. Esta base de datos recopila información sobre las propinas que
se dejan en un restaurante, incluyendo datos como el total de la cuenta, el
porcentaje de propina, el día de la semana, y la cantidad de personas en la mesa.
Primero, cargaremos el conjunto de datos y realizaremos diferentes análisis y
visualizaciones para extraer información significativa.

* `total_bill`: Monto total de la cuenta.
* `tip`: Monto de la propina.
* `sex`: Género del cliente.
* `smoker`: Indica si el cliente es fumador o no.
* `day`: Día de la semana.
* `time`: Hora de la comida (almuerzo o cena).
* `size`: Número de personas en la mesa.

## Importamos el dataset

In [None]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
# Cargar la base de datos tips de Seaborn
tips = sns.load_dataset("tips")
# Visualizar las primeras filas del DataFrame
# tips.head()
print(tips.head())

In [None]:
# Veamos algunos datos estadísticos
tips.describe()

## Graficamos Histogramas

## Graficamos Boxplots

## Que relación hay entre la cuenta "bill" y la propina "tip"?