# Estadística descriptiva

El análisis exploratorio nos ayuda a entender los datos a través de estadísticos y resúmenes de sus características,generalmente antes de la parte visual. Generalmente, suele ser acompañado de gráficos, aunque en algunos casos, esto suele causar demoras en el análisis. En la estadística descriptiva se conocen tres faces:
* Análisis univariado
* Análisis bivariado:
    - De razon vs ordinal
    - De razón vs categórica
    - Ordinal vs ordinal etc.
* Análisis multivariado (más de tres características):
    - Obtener grupos u observaciones parecidas entre sí

Tipos de variables:

    * Cuantitativos: De razon, de intervalo
    * Cualitativos: Categórico u ordinal.

## Carga de archivos en python

En python existen algunas dependencias que permiten la carga de archivos en diferentes formatos (csv, txt, xlsx, json, parquet, etc.), algunas de estas se especializan en la carga de grandes volúmenes de datos, generalmente, cuando se abordan los temas teóricos y prácticos de la ciencia de datos, los datasets que se utilizan no suelen ser muy masivos. Por lo que usaremos la famosa librería `pandas` para el tratamiento de la información. Estas librerías (aprovechando la comunidad de python, suelen tener muy buena documentación, por ejemplo, eche un vistazo a la documentación de [`pandas`](https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html). A continuación, la importamos:

In [3]:
import pandas as pd
import numpy as np
# from global_vars import GLOBAL_PATH
import global_vars as gv

Usaremos para introducir los conceptos de estadística descriptiva, el dataset de _cars_, que contiene información de características de 10 mil vehículos y se puede encontrar en [_kaggle_](https://www.kaggle.com/datasets/CooperUnion/cardataset?resource=download). Y cuya metadata adjuntamos:

**Context**

Cars dataset with features including make, model, year, engine, and other properties of the car used to predict its price.

**Content**

Scraped from Edmunds and Twitter.

**Acknowledgements**

Edmunds and Twitter for providing info
Sam Keene

**Inspiration**

Effects of features on the price
How does the brand affect the price?
What cars can be consider overpriced?
Price VS. popularity?

In [4]:
cars = pd.read_csv(f'{gv.GLOBAL_PATH}/data/cars.csv')

Ahora exploraremos la base de datos cargada.

In [3]:
cars.head()

Unnamed: 0,Make,Model,Year,Engine Fuel Type,Engine HP,Engine Cylinders,Transmission Type,Driven_Wheels,Number of Doors,Market Category,Vehicle Size,Vehicle Style,highway MPG,city mpg,Popularity,MSRP
0,BMW,1 Series M,2011,premium unleaded (required),335.0,6.0,MANUAL,rear wheel drive,2.0,"Factory Tuner,Luxury,High-Performance",Compact,Coupe,26,19,3916,46135
1,BMW,1 Series,2011,premium unleaded (required),300.0,6.0,MANUAL,rear wheel drive,2.0,"Luxury,Performance",Compact,Convertible,28,19,3916,40650
2,BMW,1 Series,2011,premium unleaded (required),300.0,6.0,MANUAL,rear wheel drive,2.0,"Luxury,High-Performance",Compact,Coupe,28,20,3916,36350
3,BMW,1 Series,2011,premium unleaded (required),230.0,6.0,MANUAL,rear wheel drive,2.0,"Luxury,Performance",Compact,Coupe,28,18,3916,29450
4,BMW,1 Series,2011,premium unleaded (required),230.0,6.0,MANUAL,rear wheel drive,2.0,Luxury,Compact,Convertible,28,18,3916,34500


In [4]:
cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11914 entries, 0 to 11913
Data columns (total 16 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Make               11914 non-null  object 
 1   Model              11914 non-null  object 
 2   Year               11914 non-null  int64  
 3   Engine Fuel Type   11911 non-null  object 
 4   Engine HP          11845 non-null  float64
 5   Engine Cylinders   11884 non-null  float64
 6   Transmission Type  11914 non-null  object 
 7   Driven_Wheels      11914 non-null  object 
 8   Number of Doors    11908 non-null  float64
 9   Market Category    8172 non-null   object 
 10  Vehicle Size       11914 non-null  object 
 11  Vehicle Style      11914 non-null  object 
 12  highway MPG        11914 non-null  int64  
 13  city mpg           11914 non-null  int64  
 14  Popularity         11914 non-null  int64  
 15  MSRP               11914 non-null  int64  
dtypes: float64(3), int64(5

In [5]:
# cars['Number of Doors'] = cars['Number of Doors'].fillna(0).astype(int)

## Análisis univariado

Para variables cuantitativas:
- Medidas de tendencia central
- Medidas de posición
- Medidas de dispersión
- Medidas de forma

### Medidas de tendencia central

Entre las medidas de tendencia central se encuentra la media, mediana y moda, y algunas variantes de las mismas: media recortada, media ponderada. Calculemos estas funciones para los datos numéricos. La media es sensible a los valores extremos, la mediana no, la moda es el valor que más se repite.

In [6]:
gv.get_numeric(cars)

['Engine HP', 'Engine Cylinders', 'Number of Doors']

In [7]:
from collections import Counter
def my_mode(sample):
    """
    This function calculates the mode of a given sample.

    Parameters:
    sample (pandas.Series): The sample for which the mode is to be calculated.

    Returns:
    float: The mode of the sample.
    """
    c = Counter(sample)
    return [k for k, v in c.items() if v == c.most_common(1)[0][1]][0]

In [8]:
# Counter(cars['Engine HP']).most_common(1)
# Counter(cars['Engine HP']).items()

In [9]:
cars.copy()[['MSRP', 'Popularity']].agg({'mean', 'median', 'max', 'min', 'std'})

Unnamed: 0,MSRP,Popularity
median,29995.0,1385.0
min,2000.0,2.0
mean,40594.74,1554.911197
std,60109.1,1441.855347
max,2065902.0,5657.0


In [10]:
Ejemplo_group = cars.copy()[['Make', 'MSRP']].groupby('Make').agg({'mean', 'median', 'max', 'min', 'std'})
Ejemplo_group['MSRP'] = np.round(Ejemplo_group['MSRP'])
Ejemplo_group.head()

Unnamed: 0_level_0,MSRP,MSRP,MSRP,MSRP,MSRP
Unnamed: 0_level_1,median,min,mean,std,max
Make,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Acura,36262.0,2000,34888.0,19432.0,156000
Alfa Romeo,63900.0,53900,61600.0,6360.0,68400
Aston Martin,195895.0,98200,197910.0,63759.0,320695
Audi,46725.0,2000,53452.0,38612.0,199900
BMW,51850.0,4697,61547.0,27983.0,141200


In [11]:
Ejemplo_group.columns = ['MSRP_mean', 'MSRP_median', 'MSRP_max', 'MSRP_min', 'MSRP_std']

In [12]:
#Ejemplo_group.reset_index()

In [13]:
def compute_mtc(data):
    """
    This function calculates the measures of central tendency (mean, median, mode) for the numeric columns in the given DataFrame.

    Parameters:
    data (pandas.DataFrame): The DataFrame for which the measures of central tendency are to be calculated.

    Returns:
    pandas.DataFrame: A DataFrame containing the measures of central tendency (mean, median, mode) for each numeric column in the input DataFrame.
    """
    # Get the numeric columns from the data
    numeric_cols = gv.get_numeric(data)

    # Copy the data and select only the numeric columns
    data_mtc = data.copy()[numeric_cols]

    # Calculate the measures of central tendency for each numeric column
    data_mtc = data_mtc.aggregate({"mean", "median", my_mode})

    return data_mtc

In [14]:
compute_mtc(cars)

Unnamed: 0,Engine HP,Engine Cylinders,Number of Doors
median,227.0,6.0,4.0
my_mode,200.0,4.0,4.0
mean,249.38607,5.628829,3.436093


In [15]:
numeric_cols = gv.get_numeric(cars)
data_mtc = cars.copy()[numeric_cols].aggregate({'Engine HP':["mean", "median", my_mode], })
data_mtc

Unnamed: 0,Engine HP
mean,249.38607
median,227.0
my_mode,200.0


Las medidas de tendencia central nos brindan información sobre cómo se distribuyen los datos, los posibles sesgos que tienen.

### Medidas de dispersión

Las medidas de dispersión nos hablan de qué tan dispersos son las distribuciones, si es confiable representarlas con un parámetro o no. Entre las medidas de dispersión se encuentran la desviación estándar, la varianza, el rango, el rango intercuartílico y el coeficiente de variación. Calculemos estas funciones para los datos numéricos.

In [16]:
def range_of_list(sample):
    """
    This function calculates the range of a given sample.

    Parameters:
    sample (pandas.Series): The sample for which the range is to be calculated.

    Returns:
    float: The range of the sample.
    """
    rango = np.max(sample.dropna().values) - np.min(sample.dropna().values)
    return rango

def iqr(sample):
    """
    This function calculates the interquartile range of a given sample.

    Parameters:
    sample (pandas.Series): The sample for which the interquartile range is to be calculated.

    Returns:
    float: The interquartile range of the sample.
    """
    q3, q1 = np.percentile(sample.dropna().values, [75 ,25])
    inqr = q3 - q1
    return inqr

def cve(sample):
    """
    This function calculates the coefficient of variation of a given sample.

    Parameters:
    sample (pandas.Series): The sample for which the coefficient of variation is to be calculated.

    Returns:
    float: The coefficient of variation of the sample.
    """
    cve =  np.round(sample.std()/sample.mean(),3)
    return cve*100


In [17]:
def compute_mdd(data):
    """
    This function calculates the measures of dispersion for the numeric columns in the given DataFrame.

    Parameters:
    data (pandas.DataFrame): The DataFrame for which the measures of dispersion are to be calculated.

    Returns:
    pandas.DataFrame: A DataFrame containing the measures of dispersion (standard deviation, variance, range, interquartile range, and coefficient of variation) for each numeric column in the input DataFrame.

    """
    # Get the numeric columns from the data
    numeric_cols = gv.get_numeric(data)
    
    # Copy the data and select only the numeric columns
    data_mdd = data.copy()[numeric_cols]
    
    # Calculate the measures of dispersion for each numeric column
    data_mdd = data_mdd.aggregate({"std", "var", range_of_list, iqr, cve})
    
    return data_mdd

In [18]:
compute_mdd(cars)

Unnamed: 0,Engine HP,Engine Cylinders,Number of Doors
cve,43.8,31.6,25.6
var,11922.864531,3.170392,0.776717
range_of_list,946.0,16.0,2.0
iqr,130.0,2.0,2.0
std,109.19187,1.780559,0.881315


### Medidas de forma

Las medidas de forma nos hablan de la simetría y la forma de la distribución de los datos. El coeficiente de asimetría de Fisher y el coeficiente de curtosis son las medidas más comunes. Para interpretar estas medidas, se puede usar la siguiente regla:
- Si el coeficiente de asimetría es 0, la distribución es simétrica.
- Si el coeficiente de asimetría es mayor que 0, la distribución es asimétrica a la derecha.
- Si el coeficiente de asimetría es menor que 0, la distribución es asimétrica a la izquierda.
- Si el coeficiente de curtosis es 0, la distribución es mesocúrtica.
- Si el coeficiente de curtosis es mayor que 0, la distribución es leptocúrtica.
- Si el coeficiente de curtosis es menor que 0, la distribución es platicúrtica.

In [21]:
def compute_mdf(data):
    """
    This function calculates the measures of form (kurtosis and skewness) for the numeric columns in the given DataFrame.

    Parameters:
    data (pandas.DataFrame): The DataFrame for which the measures of form are to be calculated.

    Returns:
    pandas.DataFrame: A DataFrame containing the measures of form (kurtosis and skewness) for each numeric column in the input DataFrame.
    """
    # Get the numeric columns from the data
    numeric_cols = gv.get_numeric(data)

    # Copy the data and select only the numeric columns
    data_mdd = data.copy()[numeric_cols]

    # Calculate the measures of form for each numeric column
    data_mdd = data_mdd.aggregate({"kurt", "skew"})

    return data_mdd

In [23]:
compute_mdf(cars)

Unnamed: 0,Engine HP,Engine Cylinders,Number of Doors
kurt,2.323884,1.974316,-1.009111
skew,1.29123,0.964542,-0.968671


## Medidas de posición

Las medidas de posición nos hablan de la posición de los datos en la distribución. Entre las medidas de posición se encuentran los percentiles, los cuartiles, los deciles y los quintiles. Calculemos estas funciones para los datos numéricos.
Los percentiles son los valores que dividen a la distribución en 100 partes iguales, los cuartiles en 4, los deciles en 10 y los quintiles en 5.

In [1]:
def compute_mdp(data):
    """
    This function calculates the measures of position (percentiles, quartiles, deciles, and quintiles) for the numeric columns in the given DataFrame.

    Parameters:
    data (pandas.DataFrame): The DataFrame for which the measures of position are to be calculated.

    Returns:
    pandas.DataFrame: A DataFrame containing the measures of position (percentiles, quartiles, deciles, and quintiles) for each numeric column in the input DataFrame.
    """
    # Get the numeric columns from the data
    numeric_cols = gv.get_numeric(data)

    # Copy the data and select only the numeric columns
    data_mdp = data.copy()[numeric_cols]

    # Calculate the measures of position for each numeric column
    data_mdp = data_mdp.quantile([0.25, 0.5, 0.75, 0.1, 0.2, 0.3, 0.4, 0.6, 0.7, 0.8, 0.9])

    return data_mdp

In [5]:
compute_mdp(cars)

Unnamed: 0,Engine HP,Engine Cylinders,Number of Doors
0.25,170.0,4.0,2.0
0.5,227.0,6.0,4.0
0.75,300.0,6.0,4.0
0.1,138.0,4.0,2.0
0.2,160.0,4.0,2.0
0.3,180.0,4.0,4.0
0.4,200.0,4.0,4.0
0.6,261.0,6.0,4.0
0.7,285.0,6.0,4.0
0.8,317.0,6.0,4.0


# Reto

En Kaggle hay una base de [datos](https://www.kaggle.com/datasets/jessemostipak/hotel-booking-demand) llamada _hotel-booking-demand_ que contiene información sobre reservaciones de hoteles. Realice un análisis descriptivo de esta base de datos. La cual puede ser descargada con el siguiente comando: 
```shell
kaggle datasets download -d jessemostipak/hotel-booking-demand
```
Debe de instalar la librería `kaggle` y tener una cuenta en Kaggle para poder descargar la base de datos.
