 # **<font color="DarkBlue">Gráficos estadísticos</font>**

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BA/blob/main/plotly.png?raw=true">
</p>


https://plotly.com/python/

<p align = "justify">
Los gráficos estadísticos son representaciones visuales de datos que permiten a los analistas y científicos de datos identificar patrones, tendencias, y relaciones dentro de los conjuntos de datos. Estos gráficos son fundamentales para el análisis exploratorio de datos y la presentación de resultados de manera clara y comprensible.
<br><br>
<b>Plotly Express</b> es una interfaz de alto nivel para Plotly que facilita la creación rápida y sencilla de gráficos comunes y complejos con menos código.
<br><br>
A continuación, se presentan algunos de los gráficos estadísticos:

1. **Histogramas:**
   - Utilizados para representar la distribución de una variable continua. Los datos se dividen en intervalos (bins) y se cuenta el número de observaciones en cada intervalo.

2. **Gráficos de Dispersión (Scatter Plots):**
   - Muestran la relación entre dos variables numéricas mediante puntos en un plano cartesiano. Se utilizan para identificar correlaciones y patrones entre las variables.

3. **Diagramas de Caja y Bigote (Box Plots):**
   - Utilizados para representar la distribución de una variable numérica, mostrando los valores mínimo, primer cuartil, mediana, tercer cuartil y máximo, así como los outliers.

6. **Diagramas de Violin (Violin Plots):**
   - Combinan características de los box plots y los histogramas, mostrando la distribución de la variable y su densidad de probabilidad.



<p align="justify"> 👀 Por convención, así se importa <code>Plotly</code>:  </p>

In [1]:
import plotly.express as px

In [2]:
import numpy as np

###plotly express grafico de alto nivel, graficos de bajo nivel , plotly go graficos capa y superoponer uno con otro

## plotly puedo conectar dataframe, diccionario u objeto numpy

 ## **<font color="DarkBlue">Histogramas</font>**

<p align="justify">
📊 Un gráfico de histograma es una representación visual de la distribución de un conjunto de datos continuos (y plotly tambien puede representar datos categóricos). Los datos se agrupan en intervalos (bins) y la altura de cada barra representa el número de datos dentro de cada intervalo. Este tipo de gráfico es útil para entender la forma, dispersión, y sesgo de los datos, así como para identificar patrones y tendencias.
<br><br>
Supongamos que estamos analizando los ingresos mensuales de una muestra de tiendas minoristas. Queremos ver cómo se distribuyen estos ingresos para entender mejor el comportamiento de ventas.



<p align="justify">
⭐ Ejemplo, generamos datos ficticios de ingresos mensuales para 1000 tiendas minoristas utilizando una distribución normal con una media de 50,000 y una desviación estándar de 15,000. Luego, creamos un histograma para visualizar la distribución de estos ingresos.
<br><br>
Este histograma permite identificar la concentración de los ingresos alrededor de la media, detectar ingresos excepcionalmente altos o bajos, y comprender la dispersión general de los ingresos entre las tiendas. Esta información es crucial para tomar decisiones informadas sobre estrategias de ventas, marketing, y planificación financiera.

In [3]:
# Generar datos de ejemplo: ingresos mensuales de 1000 tiendas minoristas

np.random.seed(42)  # Para reproducibilidad
ingresos = np.random.normal(loc=50000, scale=15000, size=1000)  # Media = 50000, Desviación estándar = 15000

In [4]:
ingresos.shape

(1000,)

In [11]:
ingresos

array([ 57450.71229517,  47926.03548243,  59715.32807151,  72845.44784612,
        46487.69937915,  46487.94564576,  73688.19223261,  61511.52093729,
        42957.88421098,  58138.40065379,  43048.73460781,  43014.05369645,
        53629.43407349,  21300.79633013,  24126.2325123 ,  41565.68706139,
        34807.53319498,  54713.70998893,  36379.63886718,  28815.44447997,
        71984.73153382,  46613.3554927 ,  51012.92307032,  28628.7772068 ,
        41834.25913212,  51663.83884565,  32735.09633867,  55635.47027519,
        40990.41965122,  45624.5937531 ,  40974.40081656,  77784.17276763,
        49797.54162893,  34134.33606566,  62338.17368155,  31687.34525043,
        53132.95392507,  20604.9481418 ,  30077.20926652,  52952.91853804,
        61076.99869993,  52570.52421785,  48265.27576418,  45483.44456616,
        27822.17014449,  39202.33687408,  43090.4184356 ,  65856.83339328,
        55154.27434353,  23554.39766956,  54861.25954092,  44223.76579376,
        39846.16999541,  

<p align="justify">
📊 Para poder generar un histograma, entonces usamos el método <code>histogram()</code> y le indicamos que en el eje $x$ los datos son los que tiene asigados la variable ingresos.

In [23]:
# Crear un histograma usando Plotly Express
px.histogram(x=ingresos).update_layout(bargap=0.2)

📊 Ahora le asignamos un nombre al gráfico y separamos las barras del histograma con <code>update_layout(bargap=0.2)</code> siendo el valor de bargap la separación de las barras.

In [6]:
px.histogram(x=ingresos,
             title = "Ingresos mensuales de 1000 tiendas minoristas").update_layout(bargap=0.1)

📊 Ahora le cambiamos el nombre al eje $x$.

In [26]:
px.histogram(x=ingresos,
             labels={"x": "Ingresos mensuales"},
             title = "Ingresos mensuales de 1000 tiendas minoristas").update_layout(bargap=0.1)

 ## **<font color="DarkBlue">Gráficos de dispersión</font>**

<p align="justify">
Un gráfico de dispersión (scatter plot) es una representación visual que muestra la relación entre dos variables numéricas mediante puntos en un plano cartesiano. Cada punto representa una observación, con su posición determinada por los valores de las dos variables.
<br><br>
Este tipo de gráfico es útil para identificar correlaciones, tendencias y patrones entre las variables.



<p align="justify">
⭐ Ejemplo, generamos datos ficticios de ingresos mensuales y gastos en marketing para 500 tiendas minoristas. Los ingresos mensuales se generan usando una distribución normal con una media de 50,000 y una desviación estándar de 15,000. Los gastos en marketing se generan como un 10% de los ingresos mensuales más una variación aleatoria.
<br><br>
Luego, creamos el gráfico de dispersión para visualizar la relación entre los gastos en marketing y los ingresos mensuales. Este gráfico permite observar si existe una correlación entre ambas variables, lo cual es crucial para evaluar la efectividad de las inversiones en marketing y tomar decisiones informadas sobre estrategias de marketing.







### Tecnicas de cada columna le asignamos variable, modelos de varias variables , grafico de dispersion en tres dimensiones, experimento visualizar cualquier modelo, puede ver 3 componentes, diagrama caja y bigote, mostrar una distribucion y el intervalo de confianza , datos atipicos o anomalias que analisis voy a hacer, grafircos de violin , veoun area en virtud de la concentracion de datos area mas grande o achicando de acuerdo a su dispersion.


## permite ver una variable contra otra pequeño analisis de correlacion

In [7]:
# Generar datos de ejemplo: ingresos mensuales y gastos en marketing de 500 tiendas minoristas
np.random.seed(42)

In [27]:
# Ingresos mensuales (Media = 50000, Desviación estándar = 15000)
np.random.seed(42)
ingresos = np.random.normal(loc=50000,
                            scale=15000,
                            size=500)

# Gastos en marketing
gastos_marketing = np.abs(ingresos * 0.1 + np.random.normal(loc=0,
                                                            scale=5000,
                                                            size=500))

In [28]:
ingresos

array([ 57450.71229517,  47926.03548243,  59715.32807151,  72845.44784612,
        46487.69937915,  46487.94564576,  73688.19223261,  61511.52093729,
        42957.88421098,  58138.40065379,  43048.73460781,  43014.05369645,
        53629.43407349,  21300.79633013,  24126.2325123 ,  41565.68706139,
        34807.53319498,  54713.70998893,  36379.63886718,  28815.44447997,
        71984.73153382,  46613.3554927 ,  51012.92307032,  28628.7772068 ,
        41834.25913212,  51663.83884565,  32735.09633867,  55635.47027519,
        40990.41965122,  45624.5937531 ,  40974.40081656,  77784.17276763,
        49797.54162893,  34134.33606566,  62338.17368155,  31687.34525043,
        53132.95392507,  20604.9481418 ,  30077.20926652,  52952.91853804,
        61076.99869993,  52570.52421785,  48265.27576418,  45483.44456616,
        27822.17014449,  39202.33687408,  43090.4184356 ,  65856.83339328,
        55154.27434353,  23554.39766956,  54861.25954092,  44223.76579376,
        39846.16999541,  

In [30]:
# Crear un gráfico de dispersión
px.scatter(x=gastos_marketing,## indistinto el orden , esta relacion de datos no tienen compportamiento lineal los puntos deberian estar centrados
           y=ingresos,
           title = "Ingresos mensuales vs Gastos de marketing",
           labels={'x': 'Gastos en Marketing', 'y': 'Ingresos Mensuales'})

## mas gastos en publicidad mas ingresos mensuales, a mayor gasto mayor ingreso, menor menor , no estan correlacionados

https://plotly.com/## dash

<p align="justify">
⭐ Para mejorar el ejemplo y utilizar el parámetro color de Plotly Express, podemos agregar una tercera variable categórica que represente, por ejemplo, diferentes regiones o categorías de tiendas. Esta variable se usará para colorear los puntos en el gráfico de dispersión, lo que puede proporcionar información adicional sobre cómo se comportan diferentes grupos dentro de los datos.

In [33]:
# Crear una variable categórica para representar diferentes regiones
regiones = np.random.choice(['Norte', 'Sur', 'Este', 'Oeste'], size=500)## metodo de numpy en forma aleatoria metodo choice

In [32]:
# Crear un gráfico de dispersión
px.scatter(x=gastos_marketing,
           y=ingresos,
           color=regiones,
           title = "Ingresos mensuales vs Gastos de marketing",
           labels={'x': 'Gastos en Marketing',
                   'y': 'Ingresos Mensuales',
                   'color':'Región'})

<p align="justify">
⭐ Para mejorar aún más el ejemplo y utilizar el parámetro <code>size</code> de Plotly Express, podemos agregar una cuarta variable que represente, por ejemplo, el tamaño de la tienda (medido en metros cuadrados).
<br><br>
Esto permitirá dimensionar los puntos en el gráfico de dispersión de acuerdo con el tamaño de la tienda, proporcionando una visión adicional sobre cómo el tamaño de la tienda podría influir en los ingresos y los gastos de marketing.



In [34]:
# Crear una variable para representar el tamaño de la tienda (en metros cuadrados)
tamano_tienda = np.random.normal(loc=200, scale=50, size=500).astype(int)

# Tamaño promedio = 200 m2, Desviación estándar = 50 m2

In [35]:
# Crear un gráfico de dispersión
px.scatter(x=gastos_marketing,
           y=ingresos,
           color=regiones,
           size=tamano_tienda,
           title = "Ingresos mensuales vs Gastos de marketing",
           labels={'x': 'Gastos en Marketing',
                   'y': 'Ingresos Mensuales',
                   'color':'Regiones'})

 ## **<font color="DarkBlue">Diagramas de caja y bigotes</font>**

<p align="justify">
📊 Un gráfico de caja y bigotes (box plot) es una representación visual que resume la distribución de un conjunto de datos numéricos a través de sus cuartiles. Este gráfico muestra la mediana, el rango intercuartílico (IQR), y los valores atípicos (outliers).
<br><br>
Los componentes principales de un gráfico de caja y bigotes son:

- La caja: muestra el rango intercuartílico, que es el rango entre el primer cuartil (Q1) y el tercer cuartil (Q3).
- La línea dentro de la caja: representa la mediana (Q2).
- Los bigotes: se extienden desde los cuartiles hasta los valores máximos y mínimos dentro de 1.5 veces el IQR.
- Los puntos fuera de los bigotes: representan los valores atípicos.

<p align="justify">
⭐ Supongamos que tenemos datos de las ventas  de dos productos diferentes durante un determinado tiempo. Queremos comparar la distribución de estas ventas para identificar cuál producto tiene un desempeño más consistente.

In [38]:
# Generar datos de ejemplo (ventas y nombre de los productos)
np.random.seed(42)

ventas_producto_A = np.random.randint(100, 500, size=12) ## randint aleatorio entero
ventas_producto_B = np.random.randint(200, 400, size=12)

producto_A = np.repeat('Producto A', 12) ## metodo repeat para crear un arreglo
producto_B = np.repeat('Producto B', 12)

In [37]:
# Concatenar las ventas y nombre de los productos
ventas = np.concatenate([ventas_producto_A, ventas_producto_B])
productos = np.concatenate([producto_A, producto_B])

In [39]:
ventas

array([202, 448, 370, 206, 171, 288, 120, 202, 221, 314, 430, 187, 316,
       299, 303, 351, 330, 349, 252, 201, 287, 357, 237, 329])

In [40]:
productos

array(['Producto A', 'Producto A', 'Producto A', 'Producto A',
       'Producto A', 'Producto A', 'Producto A', 'Producto A',
       'Producto A', 'Producto A', 'Producto A', 'Producto A',
       'Producto B', 'Producto B', 'Producto B', 'Producto B',
       'Producto B', 'Producto B', 'Producto B', 'Producto B',
       'Producto B', 'Producto B', 'Producto B', 'Producto B'],
      dtype='<U10')

In [48]:
# Armamos un diccionario con la clave unica nombre de la columna y los valores
datos = {'Ventas': ventas,
         'Producto': productos}

In [46]:
ventas.shape ## vector

(24,)

In [45]:
productos.shape ## vector

(24,)

In [42]:
px.box(datos, y="Ventas", title="Ventas totales")

<p align="justify">
⭐ Ahora comparamos los productos...

In [47]:
px.box(datos,
       y="Ventas",
       color="Producto",
       title="Ventas por producto")

<p align="justify">
⭐ En algunos casos se puede justificar cambiar de eje para interpretar mejor los datos...

In [50]:
px.box(datos,
       x="Ventas",
       color="Producto",
       title="Ventas por producto")

 ## **<font color="DarkBlue">Diagramas de violín</font>**

<p align="justify">
Un gráfico de violín es una representación visual que combina las características de un gráfico de caja y bigotes y un gráfico de densidad. Muestra la distribución de los datos a lo largo de una variable, incluyendo la densidad de probabilidad de los datos en diferentes valores.
<br><br>
Los componentes principales de un gráfico de violín son:

- La "caja" central que muestra los cuartiles y la mediana de los datos.
- La "forma de violín" que representa la estimación de la densidad de probabilidad de los datos.


<p align="justify">
⭐ Podemos usar el mismo ejemplo del diagrama de caja y bigotes...

In [51]:
px.violin(datos, y="Ventas", title="Ventas totales")

<p align="justify">
⭐ Y ver por productos...

In [52]:
px.violin(datos,
          y="Ventas",
          color="Producto",
          title="Ventas por producto")

<p align="justify">
⭐ Tambien podemos cambiar el eje...

In [None]:
px.violin(datos,
          x="Ventas",
          color="Producto",
          title="Ventas por producto")

<p align="justify">
⭐ Y también podemos superponer cada uno de los productos...

In [None]:
px.violin(datos,
          x="Ventas",
          color="Producto",
          violinmode='overlay',
          title="Ventas por producto")

<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
