# Taller: La Forma de los Datos
### Women in Data Science Honduras

#### Autora: Claudette Martínez

En este taller nos embarcaremos en aprender los conceptos básicos de los 4 momentos de una distribución estadística. Cada momento representa un conjunto de métricas que se encarga de definir aspectos específicos de un set de datos como ser medidas de tendencia central, dispersión, tendencia a valores atípicos y sesgo. La importancia de estos momentos en la ciencia de datos es que nos permiten conocer los datos con los cuales estamos trabajando para tomar las decisiones correctas en cuanto a limpieza y transformaciones a realizar a los datos para asegurar que los modelos predictivos se entrenen con la información más optima.

## Tabla de Contenido
- [Descripción de Momento](#1)
- [Definición de una Distribución Estadistica](#2)
- [Exploración de una Distribución de Datos](#3)
- [Conociendo Nuestro Dataset](#4)
    - [Importando librerias](#4.1)
    - [Cargando el dataset a analizar](#4.2)
    - [Exploración inicial del dataset](#4.3)
    - [Primeras estadísticas de nuestro dataset](#4.4)
    - [Generando visualiciones de la disrtribución de los datos](#4.5)
    - [Puntos clave del análisis preliminar del dataset](#4.6)
- [Momentos de una Distribucion Estadística](#5)
- [Momento de Ubicación](#6)
    - [Cálculo de la media para precio de casas por colonia](#6.1)
    - [Medidas de tendencia central robustas](#6.2)
    - [Analizando valores atípicos](#6.3)
- [Momento de Variabilidad](#7)
    - [Medidas de variabilidad robustas](#7.1)
    - [Cálculo de la desviación estándar para precio de casas por colonia](#7.2)
- [Asimetría o Sesgo](#8)
    - [Tipos de asimetría](#8.1)
    - [Cálculo de la asimetría para precio de casas por colonia](#8.2)
- [Cutorsis](#9)
    - [Tipos de curtosis](#9.1)
    - [Cálculo de la curtosis para precio de casas por colonia](#9.2)
- [Conclusiones](#10)
- [Bibliografía](#11)

<a name='1'></a>
## Descripción de Momento

Para poder entender que son los momentos de una distribución estadística, primero aprendemos que es un momento desde una perspectiva matemática, ya que esta es la descripción más general de momento, la cual puede ser ampliada a una variedad de campos.

**Momento**: En matemáticas, los momentos de una función son ciertas medidas *cuantitativas* relacionadas con la forma de la gráfica de la función.

En el caso de la estadística, existen una amplia variedad de momentos, los cuales significan que existe una amplia variedad de medidas para definir y medir diferentes aspectos de un conjunto de datos.

Hablando específicamente de un conjunto de datos, los momentos estadísticos constituyen una serie de métricas que nos dan información sobre la forma en que están distribuidos los datos.


<a name='2'></a>
## Definición de una Distribución Estadistica

Una distribución estadística o distribución de probabilidad determina como los valores están esparcidos o distribuidos a lo largo de un rango determinado. Estas distribuciones pueden ser clasificadas en base a distintos aspectos como ser tipo de datos *(discretos o continuos)* o el grado de probabilidad que tiene cada valor de aparecer en el dataset. Aquí te muestro como lucen algunos tipos de distribuciones:

<img src="https://raw.githubusercontent.com/claumart/DA_The_Shape_of_Data_WiDSHN_Workshop/main/images/distributions_examples2.png">
<caption><center><b>Figura 1 - Diferentes tipos de distribuciones</b></center></caption><br>

Como puedes ver, la forma en que se distribuyen los valores de un conjunto de datos puede adoptar una gran cantidad de formas 




<a name='3'></a>
## Exploración de una Distribución de Datos

Existen múltiples formas de explorar un conjunto de datos, la manera más rudimentaria de hacerlo es visualizando la data directamente desde la fuente de datos. Debido a que el cerebro humano es más hábil identificando *patrones* visualmente de forma natural que mediante el análisis de datos en bruto, es mejor utilizar visualizaciones de datos, las cuales están constituidas por un gran conjunto de herramientas de análisis y graficas muy útiles para identificar ciertas características en los datos de manera rápida y sencilla.

Aquí explicaremos tres recursos muy utilizados en el análisis datos y que nos permiten observar la distribución de una variable de forma instantánea.

**Tabla de Frecuencia**: Es una herramienta estadística que organiza y resume la información sobre la distribución de datos. Básicamente nos muestra la frecuencia con la cual aparecer cada valor del conjunto de datos, está clasificación de frecuencia se puede hacer en base a valores únicos o en base a un número determinado de segmentos con una amplitud especifica.

**Histograma**: El histograma nos permite visualizar una tabla de frecuencia de forma gráfica, con los segmentos en el eje X y la frecuencia o conteo de valores en el eje Y.

**Diagrama de Densidad**: Es muy similar al histograma, salvo que muestra la información como una línea continua en lugar de segmentos. El área total debajo de la curva de un diagrama de densidad siempre suma 1.



<a name='4'></a>
## Conociendo Nuestro Dataset

El conjunto de datos utilizado en este taller se basa en los precios de casas de diferentes colonias de Honduras.

Se aclara que es un dataset generado con propósitos académicos, por lo tanto la información contendida dentro de él no refleja la realidad de los valores reales de los precios de una casa en Honduras.

<a name='4.1'></a>
### Importando librerias

Antes de iniciar la exploración de nuestro dataset, primero importaremos en nuestro espacio de trabajo las librerías necesarias para poder realizar nuestro análisis

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as pyplot
import seaborn as sns

In [None]:
#Configuramos el estilo de las gráficas que estaremos generando en Seaborn
sns.set(style="darkgrid")

#Formateamos la salida de los cálculos numéricos que realizaremos en los datasets
pd.options.display.float_format = '{:,.2f}'.format


<a name='4.2'></a>
### Cargando el dataset a analizar

In [None]:
ruta_dataset = "https://raw.githubusercontent.com/claumart/DA_The_Shape_of_Data_WiDSHN_Workshop/main/the_shape_of_data_dataset_WiDSHN.csv"
dataset_principal = pd.read_csv(ruta_dataset)

<a name='4.3'></a>
### Exploración inicial del dataset

In [None]:
#Para saber el número de registros (observaciones) y columnas (atributos)
print(dataset_principal.shape)

In [None]:
#Exploramos los primeros 5 registros con la función head()
dataset_principal.head()

In [None]:
#Exploramos los tipos de datos de cada atributo o variable con la función info()
print(dataset_principal.info())

In [None]:
#Exploramos algunas datos útiles de las variables cualitativas (Dtype=object)
dataset_principal.describe(include=object).transpose()

In [None]:
#Visualizamos los valores únicos por Ciudad y por Colonia
print("Valores Únicos para Ciudad") 
print(dataset_principal["Ciudad"].value_counts())
print("\n\nValores Únicos para Colonia") 
print(dataset_principal["Colonia"].value_counts())

In [None]:
#Visualizamos las combinaciones únicas de Ciudad y Colonia
dataset_principal.groupby(['Ciudad', 'Colonia']).size()

In [None]:
#Dividimos nuestro dataset principal en tres datasets, cada uno enfocandose en analizar una colonia en específico
df_miraflores = dataset_principal[(dataset_principal['Ciudad'] == 'Tegucigalpa') 
                                  & (dataset_principal['Colonia'] == 'Miraflores')]

df_mh = dataset_principal[(dataset_principal['Ciudad'] == 'San Pedro Sula') 
                                          & (dataset_principal['Colonia'] == 'Merendón Hills')]

df_independencia = dataset_principal[(dataset_principal['Ciudad'] == 'La Ceiba') 
                                                     & (dataset_principal['Colonia'] == 'Independencia')]

<a name='4.4'></a>
### Primeras estadísticas de nuestro dataset

In [None]:
#Calculamos algunas estadísticas iniciales con la función describe()
#Luego unificamos los resultados de cada dataset con la función concat()
colonias_stats = pd.concat([df_miraflores.describe().rename(columns={'PrecioCasa_lps': 'Miraflores'})
                            , df_mh.describe().rename(columns={'PrecioCasa_lps': 'Merendón Hills'})
                            , df_independencia.describe().rename(columns={'PrecioCasa_lps': 'Independencia'})]
                           , axis=1, join="inner")
colonias_stats.transpose()

In [None]:
#con la función cut() creamos un número específico de segmentos, los cuales se usan para crear una tabla de Frecuencia
pd.cut(df_miraflores['PrecioCasa_lps'], 10).value_counts(sort=False)

<a name='4.5'></a>
### Generando visualiciones de la distribución de los datos

Tal como se habló en apartados anteriores, haremos uso de los histogramas y diagramas de densidad para conocer mejor como están distribuidos nuestros datos.

In [None]:
def plotHistogram(dataset1, dataset2, dataset3, kde_flag):
    #Primero configuramos el template de nuestra figura, lo creamos con 1 fila y 3 columnas, cada columna es un plot
    fig, (plot1, plot2, plot3) = pyplot.subplots(1,3, figsize=(12, 3))
    
    #Creamos cada plot en base a un respectivo dataset
    sns.histplot(dataset1, bins=10, kde=kde_flag, ax=plot1)
    sns.histplot(dataset2, bins=10, kde=kde_flag, ax=plot2)
    sns.histplot(dataset3, bins=10, kde=kde_flag, ax=plot3)
    
    #Añadimos los títulos a cada gráfico
    plot1.set_title('Miraflores')
    plot2.set_title('Merendón Hills')
    plot3.set_title('Independencia')
    
    #Añadimos el título a la figura
    fig.suptitle('Histograma Precios de Casa por Colonia')
    
    #Configuramos el espaciado entre gráficos
    pyplot.subplots_adjust(wspace=0.3, top=0.8)
    
    pyplot.show()

#Llamamos a la función que acabamos de crear para que dibuje nuestra visualización
plotHistogram(df_miraflores['PrecioCasa_lps'], df_mh['PrecioCasa_lps'], df_independencia['PrecioCasa_lps'], False)

In [None]:
#Similar a la visualización anterior, creamos gráficos de densidad para cada dataset
def plotKDE(dataset1, dataset2, dataset3):
    fig, (plot1, plot2, plot3) = pyplot.subplots(1,3, figsize=(12, 3))
    sns.kdeplot(dataset1, ax=plot1)
    plot1.set_title('Miraflores')
    sns.kdeplot(dataset2, ax=plot2)
    plot2.set_title('Merendón Hills')
    sns.kdeplot(dataset3, ax=plot3)
    plot3.set_title('Independencia')
    fig.suptitle('Diagrama de Densidad de Precios de Casa por Colonia')
    pyplot.subplots_adjust(wspace=0.3, top=0.8)
    pyplot.show()

plotKDE(df_miraflores['PrecioCasa_lps'], df_mh['PrecioCasa_lps'], df_independencia['PrecioCasa_lps'])

In [None]:
plotHistogram(df_miraflores['PrecioCasa_lps'], df_mh['PrecioCasa_lps'], df_independencia['PrecioCasa_lps'], True)

<a name='4.6'></a>
### Puntos clave del análisis preliminar del dataset

Con la exploración inicial realizada al dataset podemos concluir lo siguiente:
-	El dataset está conformado por 300 registros y tres atributos principales
-	El dataset sólo contiene una colonia por ciudad, por lo cual se decidió dividir el dataset por cada ciudad/colonia y así efectuar un análisis más específico
-	En gráficas generadas podemos notar que el dataset de la colonia independencia posee una distribución diferente a los demás


<a name='5'></a>
## Momentos de una Distribución Estadística

Los momentos de una distribución estadística son un conjunto de métricas que nos permiten conocer la forma en cómo se distribuyen los datos y su comportamiento a lo largo de dicha distribución.
Son 4 los momentos principales de una distribución estadística:

1. Ubicación o medidas de tendencia Central

2. Variabilidad o medidas de dispersión

3. Asimetría o Sesgo

4. Curtosis

A continuación estudiaremos cada uno de ellos

<a name='6'></a>
## Momento de Ubicación

Este es el primer momento y hace referencia a las métricas utilizadas para calcular el valor central de la distribución de datos, este valor es una estimación de donde se encuentra ubicados la mayoría de los datos. Este valor se puede calcular de diferentes formas:

**Media**: También llamada promedio, es la forma más típica de calcular el valor central de una distribución, 
se puede definir como la suma de todos los valores dividido por el número de valores.

$$Media = \overline{x} = \frac{\sum_{i = 1}^{n}x_{i}}{n}$$

Donde
- $n$: número total de observaciones
- $x_{i}$: valor individual observado

La desventaja de la media con respecto a otras medidas de tendencia central es que es susceptible a valores atípicos.


<a name='6.1'></a>
### Cálculo de la media para precio de casas por colonia

In [None]:
#Calculamos la media con la función mean() de pandas
media_stats = pd.DataFrame({'Miraflores': [df_miraflores['PrecioCasa_lps'].mean()]
, 'Merendón Hills': [df_mh['PrecioCasa_lps'].mean()]
, 'Independencia': [df_independencia['PrecioCasa_lps'].mean()]},
                          index=pd.Index(["Promedio"]))
media_stats

<a name='6.2'></a>
### Medidas de tendencia central robustas

Son métricas que no son susceptibles a valores atípicos

**Valor Atípico**: Son valores muy diferentes al resto de datos, generalmente valores muy bajos o extremadamente altos.

Algunas de estás métricas más utilizadas son las siguientes:

**Mediana**: Es el valor donde la mitad de los datos están por encima de él, y la otra mitad por debajo. En otras palabras, es el valor medio en una lista ordenada de datos, si el número de datos es par, entonces la mediana es la suma de los dos valores centrales divididos entre dos. Debido a que la mediana sólo depende de los valores centrales, los valores atípicos no afectan su resultado.

**Moda**: Es el valor que más se repite en un conjunto de datos y suele ser usada para valores discretos. A diferencia de la media y la media, un conjunto de datos puede tener varias modas. Es decir, varios valores que se repiten con la misma frecuencia.

**Media Acotada**: También llamada media truncada, es el calculo de la media después de haber ordenado los datos y haber descartado un número fijo de valores atípicos al comienzo y final de los datos. Si soló los valores de un extremo de la lista ordenada de datos son descartados, entonces recibe el nombre de media acotada por la izquierda o media acotada por la derecha según sea el caso.

$$Media Acotada = \overline{x} = \frac{\sum_{i = p + 1}^{n - p}x_{i}}{n - 2p}$$

Donde
- $n$: número total de observaciones
- $x_{i}$: valor individual debidamente ordenado
- $p$: número de valores a omitir


<a name='6.3'></a>
### Analizando valores atípicos

Cómo pudimos ver en nuestro análisis preliminar, la distribución de precios de casas para la colonia Independencia en La Ceiba, lucía diferente, por lo cual podemos presumir que existen ciertos valores que estén provocando este fenómeno.

A continuación, veamos más de cerca este dataset

In [None]:
#Primero ordenamos nuestra data con la función sort_values() de pandas
#Una vez que la data ya está ordenada procedemos a visualizar los últimos 5 registros con la función tail()
df_independencia.sort_values(by=['PrecioCasa_lps']).tail()

Como podemos observar existe un valor que es mucho mayor a los demás valores. Luego de realizar una investigación más exhaustiva sobre este “valor atípico” se encontró que corresponde al precio de una casa construida por una millonaria extranjera, quien decidió construir una casa en La Colonia Independencia luego de pasar sus vacaciones en Honduras.

Para calcular el valor de tendencia central, inicialmente utilizamos la media, pero como se dijo anteriormente, esta estimación se está viendo afectada por el valor atípico, veamos una comparación de esta estimación con otra métrica de tendencia central robusta; la mediana.

In [None]:
def plotComparisonLocationMetrics(variable, titulo):
    pyplot.figure(figsize=(8,3))
    sns.kdeplot(variable)
    sns.despine(top=True, right=True, left=True)
    pyplot.title(titulo, fontdict=dict(fontsize=20))
    
    # Calculamos la media y mediana
    media_precio = variable.mean()
    mediana_precio = variable.median()
    
    #Crear las etiquetas para la leyenda
    etiqueta_media = "Media: {estimacion:,.2f}".format(estimacion = media_precio)
    etiqueta_mediana = "Mediana: {estimacion:,.2f}".format(estimacion = mediana_precio)

    # Creamos las líneas que indican la media y la mediana
    pyplot.axvline
    pyplot.axvline(media_precio, color="red", label= etiqueta_media)
    pyplot.axvline(mediana_precio, color="purple", label= etiqueta_mediana)
    pyplot.legend()
#Llamamos a la función que acabamos de crear para que genere el gráfico
plotComparisonLocationMetrics(df_independencia['PrecioCasa_lps'], "Precio de Casas Colonia Independencia")

Al comparar ambas métricas podemos observar que la diferencia entre una y otra es más de medio millón, si observamos la línea que hace referencia a la mediana, se encuentra más al centro del pico de la distribución, por lo tanto, en este caso podría ser una mejor estimación de tendencia central que la media. 

Otra opción que podemos aplicar es excluir los valores atípicos, y volver a calcular la media sin dichos valores, lo cual sería equivalente a una media acotada, veamos este ejemplo a continuación

In [None]:
#Eliminamos el valor atípico de nuestro dataset con la función drop() de pandas
#Previamente ya habíamos identificado el índice o número de registro del valor atípico, así que lo pasamos como parámetro
df_independencia_sva = df_independencia.drop(index=200).sort_values(by=['PrecioCasa_lps'])
df_independencia_sva.tail()

In [None]:
#volvemos a gráficar lasa estimaciones de tendencia central, esta vez sin valores atípicos
plotComparisonLocationMetrics(df_independencia_sva['PrecioCasa_lps'], "Precio de Casas Colonia Independencia")

Como puedes ver, después de eliminar el valor atípico de nuestro conjunto de datos, ahora ambas estimaciones son más similares, y la media refleja mejor la realidad de lo que cuestan la mayoría de las casas en la colonia Independencia.

<a name='7'></a>
## Momento de Variabilidad

Representa el segundo momento de una distribución y hace referencia a las métricas utilizadas para calcular el nivel de dispersión de los datos.

Un ejemplo muy común para definir esta característica de un conjunto de datos es el ejemplo de las edades, Supongamos que estamos analizado dos grupos de amigos, cada grupo está conformado por personas de las siguientes edades:

- **Grupo A**: {15, 16, 17, 17, 18}
  
- **Grupo B**: {20, 26, 30, 39, 45}

A simple vista podemos ver que los amigos del grupo *A* poseen edades muy similares, las cuales van prácticamente seguidas una después de la otra, por otro lado, con el grupo *B* podemos notar que las edades de cada persona son muy variadas y existe una diferencia considerable de años entre cada persona, por lo tanto, podemos decir que las edades de los amigos que conforman el grupo *B* tienen un mayor grado de dispersión o variabilidad en relación al grupo *A*.

Al igual que con las medidas de tendencia central, también existen múltiples métricas para calcular la variabilidad. Las más utilizadas son las métricas basadas en estimaciones como la Varianza y la Desviación Estándar, las cuales se basan entre la diferencia o desviación que existe entre el valor de tendencia central y los datos observados.

**Varianza**: Es el promedio de las desviaciones al cuadrado con respecto a la media.

$$Varianza = s^{2} = \frac{\sum_{i = 1}^{n}(x_{i} - \overline{x})^2}{n - 1}$$

Donde
- $n$: número total de observaciones
- $x_{i}$: valor individual observado
- $\overline{x}$: media

**Desviación Estándar**: Es la raíz cuadrada de la varianza

$$Desviación Estándar = s = \sqrt{s^2}$$

Donde
- $s^2$: Varianza


<a name='7.1'></a>
### Medidas de variabilidad robustas

Tanto la varianza como la desviación estándar son susceptibles a valores atípicos, ya que toman a consideración todo el conjunto de datos para poder ser calculadas.

Si se requiere utilizar métricas de dispersión robustas, podemos recurrir a la Mediana de Desviación absoluta y a la Desviación estándar Acotada.

**Mediana de Desviación Absoluta**: A palabras simples, se puede describir como la mediana de las desviaciones con respecto a la mediana, en donde tomaremos el valor central de las desviaciones con respecto a la mediana debidamente ordenadas.

$$MDA = Mediana(|x_{1} - m|, |x_{2} - m|, |x_{i} - m|, ..., |x_{n} - m|)$$

Donde
- $n$: número total de observaciones
- $x_{i}$: valor individual observado
- $m$: mediana
- $|x_{n} - m|$: Desviación con respecto a la mediana debidamente ordenada

**Desviación Estándar Acotada**: Es análoga a la media acotada, en donde descartamos un número fijo de valores que se encuentran en los extremos de un conjunto ordenados de datos.


<a name='7.2'></a>
### Cálculo de la desviación estándar para precio de casas por colonia

In [None]:
#Calculamos la desviación estándar con la funcion std() de pandas
desviacionSt_stats = pd.DataFrame({'Miraflores': [df_miraflores['PrecioCasa_lps'].std()]
, 'Merendón Hills': [df_mh['PrecioCasa_lps'].std()]
, 'Independencia': [df_independencia['PrecioCasa_lps'].std()],
                                  'Independencia SVA': df_independencia_sva['PrecioCasa_lps'].std()},
                          index=pd.Index(["Desviación Estándar"]))
desviacionSt_stats

Como podemos observar, la desviación de los precios o dispersión de los datos con respecto a la medida de tendencia central es alta, con lo cual podemos intuir que los precios de las casas en las colonias de Honduras son muy variados.

También podemos notar que la desviación estándar de nuestro dataset de la colonia Independencia con el valor atípico es mucho mayor al valor obtenido cuando obviamos dicho valor.

<a name='8'></a>
## Asimetría o Sesgo

Es el tercer momento de una distribución, aquí se busca describir la tendencia de un conjunto de datos a concentrarse o distribuirse más de un lado que de otro con respecto al valor de tendencia central.

Se calcula por medio del coeficiente de Asimetría, la fórmula para calcular dicha métrica es la siguiente:

$$Asimetría = A = \frac{n}{(n -1)(n - 2)}\sum_{i = 1}^{n}(\frac{x_{i} - \overline{x}}{s})^3$$

Donde
- $n$: número total de observaciones
- $x_{i}$: valor individual observado
- $\overline{x}$: media
- $s$: Desviación Estándar

<a name='8.1'></a>
### Tipos de Asimetría

Dependiendo del valor obtenido con el coeficiente de asimetría o de la forma de la distribución en las diferentes graficas de datos podemos clasificar la asimetría de la siguiente manera:

**Asimetría simétrica**: Es cuando los valores se distribuyen de igual forma en ambos lados con respecto a la medida de tendencia central, formando una figura simétrica. Para este tipo de distribuciones el coeficiente de asimetría es cero.

**Asimetría Positiva**: Cuando el coeficiente de asimetría es mayor a cero, generalmente los valores de una distribución suelen concentrarse del lado izquierdo.

**Asimetría Negativa**: Es cuando el coeficiente de asimetría es menor a cero, los valores de la distribución se concentran del lado derecho, con muy pocos valores al lado izquierdo.

<img src="https://raw.githubusercontent.com/claumart/DA_The_Shape_of_Data_WiDSHN_Workshop/main/images/skewness_types.webp">
<caption><center><b>Figura 2 - Tipos de Asimetría</b></center></caption><br>

<a name='8.2'></a>
### Cálculo de la asimetría para precio de casas por colonia

In [None]:
#Calculamos la asimetría con la función  skew() de pandas
asimetria_stats = pd.DataFrame({'Miraflores': [df_miraflores['PrecioCasa_lps'].skew()]
, 'Merendón Hills': [df_mh['PrecioCasa_lps'].skew()]
, 'Independencia': [df_independencia['PrecioCasa_lps'].skew()],
                                  'Independencia SVA': df_independencia_sva['PrecioCasa_lps'].skew()},
                          index=pd.Index(["Asimetría o Sesgo"]))
asimetria_stats

Analizando los valores obtenidos del coeficiente de simetría y en base a las visualizaciones de la distribución de los datos que hemos visto podemos concluir lo siguiente:
-	La distribución de los precios de las casas para la Colonia Miraflores es simétrica, ya que su coeficiente de simetría es casi cero, y visualmente los valores se distribuyen de forma casi igual a ambos lados del estimador de tendencia central.
-	Los precios en Merendón Hills poseen una distribución negativa, dado a su coeficiente de asimetría, y dado a que visualmente los datos se concentran del lado derecho.
-	Los precios de la casa en la colonia Independencia poseen una distribución asimétrica positiva y se concentran mayormente del lado izquierdo con respecto a la medida de tendencia central.
- También podemos observar que el coeficiente de asimetría es mucho mayor si tomamos en cuenta el valor atípico.


<a name='9'></a>
## Curtosis

Es considerado el cuarto momento de una distribución y mide la tendencia de un conjunto de datos a poseer valores atípicos. A nivel visual la curtosis puede ser observada en las visualizaciones de datos a través del tamaño de las colas, una curtosis positiva sugiere colas más pesadas (menos valores extremos), mientras que una curtosis negativa indica colas más ligeras y se mide mediante el coeficiente de curtosis.

Una de las fórmulas más comunes para calcular el coeficiente de curtosis es la siguiente:

$$Curtosis = K = \frac{\frac{1}{n}\sum_{i = 1}^{n}(x_{i} - \overline{x})^4}{(\frac{1}{n}\sum_{i = 1}^{n}(x_{i} - \overline{x})^2)^2} - 3$$

Donde
- $n$: número total de observaciones
- $x_{i}$: valor individual observado
- $\overline{x}$: media


<a name='9.1'></a>
### Tipos de curtosis

Dependiendo del valor del coeficiente de curtosis, podemos clasificar las distribuciones en los siguientes tipos:

**Mesocúrtica**: Cuando el coeficiente de curtosis es cero, decimos que es una distribución mesocúrtica, con colas y picos relativamente moderados. Este es el tipo de distribución que se espera ver en la mayoría de los datos.

**Leptocúrtica**: Las distribuciones que entran en esta categoría poseen una curtosis positiva, lo cual significa que tienen un pico más pronunciado y colas pesadas o con pendientes empinadas, lo cual indica que los valores de los datos están más concentrados alrededor de la media y hay menos valores atípicos.

**Platicúrtica**: Este tipo de distribuciones poseen un coeficiente de curtosis negativo, lo cual se traduce en colas mas ligeras o con pendientes más planas y picos menos elevados. Este tipo de curtosis puede significar una mayor presencia de valores atípicos y que los valores se distribuyen por un rango más amplio.

<img src="https://raw.githubusercontent.com/claumart/DA_The_Shape_of_Data_WiDSHN_Workshop/main/images/kurtosis_types.webp">
<caption><center><b>Figura 2 - Tipos de Asimetría</b></center></caption><br>


<a name='9.2'></a>
### Cálculo de la curtosis para precio de casas por colonia

In [None]:
#Calculamos la curtosis con la función  kurtosis() de pandas
curtosis_stats = pd.DataFrame({'Miraflores': [df_miraflores['PrecioCasa_lps'].kurtosis()]
, 'Merendón Hills': [df_mh['PrecioCasa_lps'].kurtosis()]
, 'Independencia': [df_independencia['PrecioCasa_lps'].kurtosis()],
                                  'Independencia SVA': df_independencia_sva['PrecioCasa_lps'].kurtosis()},
                          index=pd.Index(["Curtosis"]))
curtosis_stats

Analizando los valores obtenidos del coeficiente de simetría y en base a las visualizaciones de la distribución de los datos que hemos visto podemos concluir lo siguiente:

- La distribución para los precios de las casas en la colonia Miraflores es mesocúrtica, siendo su coeficiente de curtosis casi cero.
- La distribución de los precios de las casas en Merendón Hills e Independencia es Leptocúrtica, al poseer ambas un coeficiente de curtosis positivo, lo cual indica que los datos se concentran en un menor rango.
- El coeficiente de curtosis para la colonia independencia si se toma en cuenta en valor atípico es muy alto, dicho coeficiente precisamente busca determinar la presencia de estos valores.

A continuación, veamos un análisis del diagrama de densidad para cada distribución, centrándonos en el tercer y cuarto momento (asimetría y curtosis respectivamente):

In [None]:
def plotKDE2(dataset1, dataset2, dataset3, dataset4):
    #Preparamos el template de la figura que sera de 1 fila por 4 columnas
    fig, plots = pyplot.subplots(1,4, figsize=(12, 3))
    
    #Creamos los gráficos
    sns.kdeplot(dataset1, ax=plots[0])
    sns.kdeplot(dataset2, ax=plots[1])
    sns.kdeplot(dataset3, ax=plots[2])
    sns.kdeplot(dataset4, ax=plots[3])
    
    #Formateamos lo que irá en la leyenda de cada gráfico
    leyenda1 = "A: {A:,.2f}\nK: {K:,.2f}".format(A = df_miraflores['PrecioCasa_lps'].skew()
                                      , K = df_miraflores['PrecioCasa_lps'].kurtosis())
    leyenda2 = "A: {A:,.2f}\nK: {K:,.2f}".format(A = df_mh['PrecioCasa_lps'].skew()
                                      , K = df_mh['PrecioCasa_lps'].kurtosis())
    leyenda3 = "A: {A:,.2f}\nK: {K:,.2f}".format(A = df_independencia['PrecioCasa_lps'].skew()
                                      , K = df_independencia['PrecioCasa_lps'].kurtosis())
    leyenda4 = "A: {A:,.2f}\nK: {K:,.2f}".format(A = df_independencia_sva['PrecioCasa_lps'].skew()
                                      , K = df_independencia_sva['PrecioCasa_lps'].kurtosis())
    
    #Le añadimos el título a los gráficos
    plots[0].set_title('Miraflores')
    plots[1].set_title('Merendón Hills')
    plots[2].set_title('Independencia')
    plots[3].set_title('Independencia SVA')
    
    #Creamos la leyenda de cada gráfico
    plots[0].legend([leyenda1], loc='upper center', bbox_to_anchor=(0.5, -0.05), fontsize='x-large')
    plots[1].legend([leyenda2], loc='upper center', bbox_to_anchor=(0.5, -0.05), fontsize='x-large')
    plots[2].legend([leyenda3], loc='upper center', bbox_to_anchor=(0.5, -0.05), fontsize='x-large')
    plots[3].legend([leyenda4], loc='upper center', bbox_to_anchor=(0.5, -0.05), fontsize='x-large')
    
    #Removemos las etiquetas y ejes de cada gráfico
    for i in range(len(plots)):
        plots[i].set(xticks=[], xticklabels='', xlabel='', yticks=[], yticklabels='', ylabel='')
    fig.suptitle('Diagrama de Densidad de Precios de Casa por Colonia')
    
    #Ajustamos los espacios entre gráficos
    pyplot.subplots_adjust(wspace=0.1, top=0.8)

    pyplot.show()

#Llamamos a la funcíon que acabamos de crear para que dibuje nuestra visualización
plotKDE2(df_miraflores['PrecioCasa_lps'], df_mh['PrecioCasa_lps']
         , df_independencia['PrecioCasa_lps'], df_independencia_sva['PrecioCasa_lps'])

<a name='10'></a>
## Conclusiones

- Los momentos de una distribución estadística son un conjunto de medida que nos proporcionan información sobre la forma y comportamiento de una distribución.


- Para poder entender de manera rápida y fácil como se distribuyen los datos, podemos hacer una de herramientas de análisis de datos como lo son gráficos y tabulaciones.


- Cada uno de los momentos de una distribución nos brindan información valiosa la cual puede ser utilizada para determinar que transformaciones o limpieza realizar a los datos según sea el propósito para el cual serán utilizados los datos.


<a name='11'></a>
## Bibiolgrafía

https://es.wikipedia.org/wiki/Momento_(matem%C3%A1ticas)

https://www.linkedin.com/pulse/8-probability-distributions-every-risk-analyst-should-david-vose/

https://stock.adobe.com/search?k=binomial+distribution&asset_id=619372352

https://www.questionpro.com/blog/es/tabla-de-frecuencias/

https://www.decisionescondatos.com/cuales-son-los-4-momentos-estadisticos-de-una-distribucion-de-datos

https://www.probabilidadyestadistica.net/tipos-de-asimetria/

https://www.questionpro.com/blog/es/curtosis/

https://www.probabilidadyestadistica.net/curtosis/#google_vignette