# Pandas
---
# Aplicación a Estadística I

El objetivo del presente *notebook* es llevar a cabo un análisis de estadística descriptiva básica (usando temas de la materia Estadística I) para lograr una mayor comprensión el framework `Pandas`. Se buscará generar el acercamiento de dicha herramienta a tópicos más cercanos al estudiante de la carrera.

Los siguientes temas corresponden a la Unidad Temática IV de Estadística I: *ANÁLISIS DE DATOS*.

Para ello se utilizará el siguiente dataset: [US Health Insurance Dataset](https://www.kaggle.com/datasets/teertha/ushealthinsurancedataset/data).

| Columna    | Descipción |
| -------- | ------- |
| age  | Edad del beneficiario principal    |
| sex | Género beneficiario principal      |
| bmi    | *Body mass index*    |
| children | Número de hijos cubiertos por el seguro |
| smoker | Persona fuma o no |
| region | Zona geográfica del asegurado |
| charges | Costos médicos individuales cobrados por la aseguradora |

In [None]:
### imports ###
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('..\data\Modulo-0\insurance.csv')

In [None]:
# selecionar solamente las columnas con valores numéricos
df_num = df.select_dtypes(include=[float, int])

## Medidas de posición: media, mediana y moda

In [None]:
media = df_num.mean()
mediana = df_num.median()
modo = df_num.mode()

print('Promedio de cada columna:', media, " ", sep='\n')
print('Mediana de cada columna:', mediana, " ", sep='\n')
print('Modo de cada columna:', modo.T, " ", sep='\n')

## Cuantiles - Percentiles

In [None]:
quant_df = df_num.quantile(np.linspace(0,1,11))
quant_df['decil'] = range(11)
quant_df = quant_df.reset_index(drop=True)
quant_df = quant_df[['decil', 'age', 'bmi', 'children', 'charges']]

display(quant_df)

In [None]:
## Rango intercuantil - IQR

q_25 = df_num.quantile([0.25]).reset_index(drop=True)
q_75 = df_num.quantile([0.75]).reset_index(drop=True)

iqr = q_75 - q_25

print('Rango intercuantil de cada columna:')
display(iqr)

## Medidas de dispersión

In [None]:
## Varianza y desvío
varianza = df_num.var()
desvio = df_num.std()

print('La varianza para cada columna es:', varianza, ' ', sep='\n')
print('El desvío para cada columna es:', desvio, ' ', sep='\n')

In [None]:
## Rango
print('El máximo para cada columna es:', df_num.max(), ' ', sep='\n')
print('El mínimo para cada columna es:', df_num.min(), ' ', sep='\n')
print('Por lo tanto, el rango para cada columna es:', ' ', df_num.max() - df_num.min(), sep='\n')

In [None]:
## Coeficiente de Variación

cv = desvio / media

print('El coeficiente de variación para cada columna es:', cv, sep='\n')

## Asimetría y kurtosis

In [None]:
## Coeficiente de asimetría
coef_asim = df_num.skew()

coef_asim = pd.DataFrame(coef_asim, columns=['Columna'])

coef_asim.loc[coef_asim['Columna']>0, 'Asimetría'] = 'positiva'
coef_asim.loc[coef_asim['Columna']<0, 'Asimetría'] = 'negativa'
coef_asim['Asimetría']=coef_asim['Asimetría'].fillna('simétrica')

display(coef_asim)

In [None]:
## Kurtosis
kurtosis = df_num.kurtosis()

kurtosis = pd.DataFrame(kurtosis, columns=['Columna'])

kurtosis.loc[kurtosis['Columna']>0, 'Kurtosis'] = 'leptocúrtica'
kurtosis.loc[kurtosis['Columna']<0, 'Kurtosis'] = 'platicúrtica'
kurtosis['Kurtosis']=kurtosis['Kurtosis'].fillna('mesocúrtica')

display(kurtosis)