# Actividad - Estadística básica

* **Nombre:** José Ricardo Rosales Castañeda
* **Matrícula:** A01709449

**Entregar:** Archivo PDF de la actividad, así como el archivo .ipynb en tu repositorio.
**Nota:** Recuerda habrá una penalización de **50** puntos si la actividad fue entregada fuera de la fecha límite.

Carga el conjunto de datos `insurance.csv` (se encuentra en el repositorio de la clase) y realiza un análisis estadístico de las variables.

In [41]:
# Carga las librerías necesarias.
import pandas as pd
import numpy as np
import random
from scipy import stats
from scipy.stats import pearsonr

In [42]:
# Carga el conjunto de datos al ambiente de Google Colab y muestra los primeros
# 6 renglones.
df = pd.read_csv('insurance.csv')
df.head(6)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552
5,31,female,25.74,0,no,southeast,3756.6216


El conjunto de datos contiene información demográfica sobre los asegurados en una compañía de seguros:
* **age**: Edad del asegurado principal
* **sex**: Género del asegurado. female o male
* **bmi**: Índice de masa corporal
* **children**: Número de hijos que estan cubiertos con la poliza. 
* **smoke**: ¿El beneficiario fuma? (*yes*/*no*)
* **region**: ¿Dónde vive el beneficiario? Estos datos son de Estados Unidos. Regiones disponibles: northeast, southeast, southwest, northwest
* **charges**: Costo del seguro.

In [43]:
# Crea una tabla resumen con los estadísticas generales de las variables
# numéricas.
df.describe()

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


In [44]:
# ¿Cómo se correlacionan las varaibles numéricas entre sí?
df.corr()

Unnamed: 0,age,bmi,children,charges
age,1.0,0.109272,0.042469,0.299008
bmi,0.109272,1.0,0.012759,0.198341
children,0.042469,0.012759,1.0,0.067998
charges,0.299008,0.198341,0.067998,1.0


In [45]:
# Determina si existe o no una correlación entre el índice de masa corporal 
# (bmi) y el costo del seguro.
print('Correlación Pearson: ', df['bmi'].corr(df['charges'], method='pearson'))
print('Correlación Spearman: ', df['bmi'].corr(df['charges'], method='spearman'))
print('Correlación Kendall: ', df['bmi'].corr(df['charges'], method='kendall'))
# r cercano a 0, lo que indica que la relacion lineal es muy debil

print('\n')
r, p = stats.pearsonr(df['bmi'], df['charges'])
print(f"Correlación Pearson: r={r}, p-value={p}")
r, p = stats.spearmanr(df['bmi'], df['charges'])
print(f"Correlación Spearman: r={r}, p-value={p}")
r, p = stats.kendalltau(df['bmi'], df['charges'])
print(f"Correlación Kendall: r={r}, p-value={p}")

# r cercano a 0, lo que indica que la relacion lineal es muy debil y
# valor p menor a 0.05 

Correlación Pearson:  0.19834096883362895
Correlación Spearman:  0.11939590358331145
Correlación Kendall:  0.08252397079981415


Correlación Pearson: r=0.1983409688336288, p-value=2.459085535116766e-13
Correlación Spearman: r=0.11939590358331145, p-value=1.1926059544526874e-05
Correlación Kendall: r=0.08252397079981415, p-value=6.256900640955888e-06


In [46]:
# ¿Cuántas personas aseguradas son hombre y cuántas son mujeres?
df['sex'].value_counts()

male      676
female    662
Name: sex, dtype: int64

In [47]:
# ¿Cuántos hombres y mujeres asegurados viven en cada región?
df2 = df.groupby('region')['sex'].value_counts()
df2

region     sex   
northeast  male      163
           female    161
northwest  female    164
           male      161
southeast  male      189
           female    175
southwest  male      163
           female    162
Name: sex, dtype: int64

In [48]:
# En promedio, ¿quién paga más de cuota de seguro? ¿Los fumadores o los no 
# fumadores? Muéstralo con los datos.
df3 = df.groupby('smoker')[['charges']].mean()
df3

Unnamed: 0_level_0,charges
smoker,Unnamed: 1_level_1
no,8434.268298
yes,32050.231832


In [49]:
# ¿Cuáles son las cuotas mínimas y máximas que las personan pagan dependiendo
# del género y del número de hijos?
df4 = df.groupby(['sex', 'children'])[['charges']].agg(['min', 'max'])
df4

Unnamed: 0_level_0,Unnamed: 1_level_0,charges,charges
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max
sex,children,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0,1607.5101,63770.42801
female,1,2201.0971,58571.07448
female,2,2801.2588,47305.305
female,3,4234.927,46661.4424
female,4,4561.1885,36580.28216
female,5,4687.797,19023.26
male,0,1121.8739,62592.87309
male,1,1711.0268,51194.55914
male,2,2304.0022,49577.6624
male,3,3443.064,60021.39897


In [50]:
# ¿Cuál es el índice de masa corporal promedio para hombre y mujeres dependiendo
# región en la que viven y si son fumadores? ¿Impacta eso en la tarifa del 
# seguro?
df5 = df.groupby(['sex', 'region', 'smoker'])[['bmi']].mean()
df5

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,bmi
sex,region,smoker,Unnamed: 3_level_1
female,northeast,no,29.777462
female,northeast,yes,27.261724
female,northwest,no,29.488704
female,northwest,yes,28.296897
female,southeast,no,32.78
female,southeast,yes,32.251389
female,southwest,no,30.050355
female,southwest,yes,30.128571
male,northeast,no,28.86176
male,northeast,yes,29.56
