# Actividad - Estadística básica

* **Nombre:** Michelle CAylin Calzada Montes
* **Matrícula:** A01706202

**Entregar:** Archivo PDF de la actividad, así como el archivo .ipynb en tu repositorio.
**Nota:** Recuerda habrá una penalización de **50** puntos si la actividad fue entregada fuera de la fecha límite.

Carga el conjunto de datos `insurance.csv` (se encuentra en el repositorio de la clase) y realiza un análisis estadístico de las variables.

In [9]:
# Carga las librerías necesarias.
import pandas as pd
import numpy as np
import random
from scipy import stats
from scipy.stats import pearsonr

In [2]:
# Carga el conjunto de datos al ambiente de Google Colab y muestra los primeros
# 6 renglones.
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Saving insurance.csv to insurance.csv
User uploaded file "insurance.csv" with length 54289 bytes


In [4]:
df = pd.read_csv('insurance.csv')
df.head(6)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552
5,31,female,25.74,0,no,southeast,3756.6216


El conjunto de datos contiene información demográfica sobre los asegurados en una compañía de seguros:
* **age**: Edad del asegurado principal
* **sex**: Género del asegurado. female o male
* **bmi**: Índice de masa corporal
* **children**: Número de hijos que estan cubiertos con la poliza. 
* **smoke**: ¿El beneficiario fuma? (*yes*/*no*)
* **region**: ¿Dónde vive el beneficiario? Estos datos son de Estados Unidos. Regiones disponibles: northeast, southeast, southwest, northwest
* **charges**: Costo del seguro.

In [47]:
# Crea una tabla resumen con los estadísticas generales de las variables
# numéricas.

df.describe()

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


In [43]:
# ¿Cómo se correlacionan las varaibles numéricas entre sí?
selected = df[['bmi', 'charges']]

print('Correlación Pearson: ', selected['bmi'].corr(selected['charges'], method='pearson'))
print('Correlación spearman: ', selected['bmi'].corr(selected['charges'], method='spearman'))
print('Correlación kendall: ', selected['bmi'].corr(selected['charges'], method='kendall'))

Correlación Pearson:  0.19834096883362895
Correlación spearman:  0.11939590358331145
Correlación kendall:  0.08252397079981415


In [12]:
# Determina si existe o no una correlación entre el índice de masa corporal 
# (bmi) y el costo del seguro.
selected = df[['bmi', 'charges']]

r, p = stats.pearsonr(selected['bmi'], selected['charges'])
print(f"Correlación Pearson: r={r}, p-value={p}")

r, p = stats.spearmanr(selected['bmi'], selected['charges'])
print(f"Correlación Spearman: r={r}, p-value={p}")

r, p = stats.kendalltau(selected['bmi'], selected['charges'])
print(f"Correlación Pearson: r={r}, p-value={p}")

Correlación Pearson: r=0.1983409688336288, p-value=2.459085535117846e-13
Correlación Spearman: r=0.11939590358331145, p-value=1.1926059544526874e-05
Correlación Pearson: r=0.08252397079981415, p-value=6.25690064095591e-06


In [5]:
# ¿Cuántas personas aseguradas son hombre y cuántas son mujeres?

df['sex'].value_counts()

male      676
female    662
Name: sex, dtype: int64

In [6]:
# ¿Cuántos hombres y mujeres asegurados viven en cada región?

pd.crosstab(df['region'], df['sex'])

sex,female,male
region,Unnamed: 1_level_1,Unnamed: 2_level_1
northeast,161,163
northwest,164,161
southeast,175,189
southwest,162,163


In [33]:
# En promedio, ¿quién paga más de cuota de seguro? ¿Los fumadores o los no 
# fumadores? Muéstralo con los datos.

# Los fumadores pagan más de cuota de seguro

df.groupby('smoker').mean()[['charges']]

Unnamed: 0_level_0,charges
smoker,Unnamed: 1_level_1
no,8434.268298
yes,32050.231832


In [8]:
# ¿Cuáles son las cuotas mínimas y máximas que las personan pagan dependiendo
# del género y del número de hijos?

df.groupby(['sex','children']).agg(['min', 'max'])[['charges']]

Unnamed: 0_level_0,Unnamed: 1_level_0,charges,charges
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max
sex,children,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0,1607.5101,63770.42801
female,1,2201.0971,58571.07448
female,2,2801.2588,47305.305
female,3,4234.927,46661.4424
female,4,4561.1885,36580.28216
female,5,4687.797,19023.26
male,0,1121.8739,62592.87309
male,1,1711.0268,51194.55914
male,2,2304.0022,49577.6624
male,3,3443.064,60021.39897


In [52]:
# ¿Cuál es el índice de masa corporal promedio para hombre y mujeres dependiendo
# región en la que viven y si son fumadores? ¿Impacta eso en la tarifa del 
# seguro?

# Si, porque si el bmi sube, la tarifa igual, además de que los hombres pagan 
# más y si se fuma igual


df.groupby(['sex', 'region', 'smoker']).mean()[['bmi', 'charges']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,bmi,charges
sex,region,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1
female,northeast,no,29.777462,9640.426984
female,northeast,yes,27.261724,28032.046398
female,northwest,no,29.488704,8786.998679
female,northwest,yes,28.296897,29670.824946
female,southeast,no,32.78,8440.205552
female,southeast,yes,32.251389,33034.820716
female,southwest,no,30.050355,8234.09126
female,southwest,yes,30.128571,31687.98843
male,northeast,no,28.86176,8664.042222
male,northeast,yes,29.56,30926.252583


**Link al repositorio:** https://github.com/A01706202/SemanaTec.git