# Box Plot

Una gráfica de caja o **box plot** visualiza la variación de cierta característica al describir datos numéricos por medio de cuartiles. Por medio de estas gráficas es posible observar datos por categorías y comparar cada categoría con base en ciertas características contínuas.

Las gráfica de caja es una forma de desplegar visualmente la distribución de los datos a través de cuartiles. Los cuartiles separan los datos dentro de cuatro partes iguales.   

Para ender las características de las gráficas de cajas y bigotes o **whiskers** iniciaremos con unos ejemplos sencillos de éstas gráficas.

In [6]:
import pandas as pd
import plotly.offline as pyo
import plotly.graph_objs as go

In [3]:
y = [1, 14, 14, 15, 16, 18, 18, 19, 19, 20, 20, 23, 24, 26, 27, 27, 28, 29, 33, 54]

In [11]:
df = pd.DataFrame(y, columns = ['a'] )

In [12]:
df.head()

Unnamed: 0,a
0,1
1,14
2,14
3,15
4,16


In [14]:
df.describe()

Unnamed: 0,a
count,20.0
mean,22.25
std,10.289877
min,1.0
25%,17.5
50%,20.0
75%,27.0
max,54.0


In [16]:
data = [go.Box(y = y,
               boxpoints = 'all', # habilita los puntos
               jitter = 0.3,   # distancia de los puntos a la caja
               pointpos = 2.0  # tamaño y posición (-:izq , +:der) de los puntos
               )]

# data = [go.Box(y = y, boxpoints = 'outliers')] muestra solo los outliers

pyo.plot(data)

'file:///home/oscar/Documentos/udemy/plotly-dash-joseport/misnotebooks/temp-plot.html'

Una situación particular que permite ver la utilidad de las gráficas de cajas y bigotes es el análisis estadístico que realizó Claude Brinegar en 1963 que consistió en el recuento de las palabras y la prueba $\chi^2$ para mostrar que los ensayos del escritor Mark Twain no tenían relación alguna con los ensayos de un tal *Quintus Curtius Snodgrass* quien se asumía era el pseudónimo de Twain.


In [17]:
# frecuencias relativas de palabras de tres letras en las cartas de snodgrass
snodgrass = [0.209, 0.205, 0.196, 0.210, 0.202, 0.207, 0.224, 0.223, 0.220, 0.201]

# frecuencias relativas de palabras de tres letras en los trabajos de Twain
twain = [0.225, 0.262, 0.217, 0.240, 0.230, 0.229, 0.235, 0.217]

In [27]:
data = [go.Box(y = snodgrass, name = 'Snodgrass'),
        go.Box(y = twain, name = 'Twain')
        ]
pyo.plot(data)

'file:///home/oscar/Documentos/udemy/plotly-dash-joseport/misnotebooks/temp-plot.html'

El resultado estadístico mostrado en las gráficas de cajas sugiere contundentemente que Mark Twain no era Snodgrass, de ser así debió cambiar completamente su estilo de escritura, lo cual, ciertamente, es muy complejo.

## Ejercicio

Elaborar un DataFrame usando los datos del dataset `../Data/abalone.csv`. Tomar dos muestras independientes al azar de diferentes tamaños del campo `rings`.

**Hint:** Utilizar `np.random.choice(df['rings], 10, replace = False)` para elegir al azar 10 valores sobre el campo `rings`

Usar gráficas de caja para mostrar que las muestras provienen de la misma población.

In [29]:
# perform imports here:

import pandas as pd
import numpy as np
import plotly.offline as pyo
import plotly.graph_objs as go

In [30]:
# create de DataFrame from the .csv file
mainpath = "/home/oscar/Documentos/udemy/plotly-dash-joseport/Plotly-Dashboards-with-Dash-master/"
filename = "Data/abalone.csv"
fullpath = mainpath + filename

df = pd.read_csv(fullpath)

In [36]:
# take two random samples of different sizes:
a = np.random.choice(df['rings'], 30, replace = False)
b = np.random.choice(df['rings'], 20, replace = False)

In [37]:
# create a data variable with tow Box plots:

data = [go.Box( y = a, name = 'A'),
        go.Box( y = b, name = 'B') ]

layout = go.Layout(title = "2 random samples")

fig = go.Figure(data, layout)
pyo.plot(fig)

'file:///home/oscar/Documentos/udemy/plotly-dash-joseport/misnotebooks/temp-plot.html'