<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BA/blob/main/ed_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/dba.png?raw=true)

![logo](https://www.python.org/static/community_logos/python-powered-h-70x91.png)

# **<font color="DarkBlue">Estadística descriptiva con Python**

## **<font color="DarkBlue">Librerías**

### **<font color="DarkBlue">Para análisis estadístico**

In [None]:
# Operaciones matemáticas y estadísticas
import pandas as pd
import numpy as np
import scipy.stats as sp

### **<font color="DarkBlue">Para gráficos**

In [None]:
# Visualización
import plotly.express as px

## **<font color="DarkBlue">Trabajemos con un dataframe**

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/UNI/main/insurance.csv")

In [None]:
df.head(3)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


Las columnas en el DataFrame representan:

+ **age** la edad,
+ **sex** el sexo de la persona,
+ **bmi** el indice de la masa corporal de las personas (Body Mass Index),
+ **children** la cantidad de hijos que tienen las personas,
+ **smoker** si la persona fuma,
+ **region** de donde es la persona,
+ **charges** cuanto lleva gastado cada persona en servicios médicos.

La idea de este conjunto de datos, es ver si existe una relación entre lo gastado en servicios médicos, en relación de las otras variables.

### **<font color="DarkBlue">Análisis de 1 variable - Análisis univariado**

In [None]:
edad = df.age
edad

0       19
1       18
2       28
3       33
4       32
        ..
1333    50
1334    18
1335    18
1336    21
1337    61
Name: age, Length: 1338, dtype: int64

In [None]:
px.histogram(x=edad,
             template="gridon",
             title = "Histograma Edad",
             nbins=20,
             text_auto=True,
             labels={"x":"Edad"}).update_layout(bargap=0.2)

In [None]:
# resumen estadistadistico con pandas
edad.describe()

count    1338.000000
mean       39.207025
std        14.049960
min        18.000000
25%        27.000000
50%        39.000000
75%        51.000000
max        64.000000
Name: age, dtype: float64

In [None]:
px.box(y=edad,
       template="gridon",
       labels={"y":"Edad"})

In [None]:
# Mediana con numpy
np.median(edad)

39.0

In [None]:
# Moda con scipy
sp.mode(edad)





ModeResult(mode=array([18]), count=array([69]))

In [None]:
# Coeficiente de variabilidad con scipy
sp.variation(edad)

0.35821919392518253

In [None]:
# Coeficiente de asimetría con scipy
sp.skew(edad)

0.055610083072599126

In [None]:
# Curtosis con scipy
sp.kurtosis(edad)

-1.2449206804584227

Según los valores obtenidos, se observa que la edad más frecuente (Moda) es 18, sin embargo la edad promedio (Media y Mediana) es de 39 años, con una desviasión estándar de 14 años; lo cual ubica las edades entre 25 y 53 años (con un 68% de confianza). El Coeficiente de Asimetría (Skewness) de 0,0556, indica que hay una
leve asimetría a la derecha de la distribución. El Coeficiente de Curtosis (Kurtosis) menor a cero, indica que la distribución es platicúrtica, es decir, hay poca concentración de datos en la media.

### **<font color="DarkBlue">Análisis de 2 variables - Análisis bivariado**

In [None]:
px.box(df,
       y="bmi",
       x = "children",
       labels = {"bmi": "índice de maza corporal",
                 "children":"Niños"},
       title = "Box Plot - índice de maza corporal según la cantidad de hijos")

In [None]:
px.box(df,
       y="charges",
       x = "smoker",
       labels = {"charges": "Gastos médicos",
                 "smoker":"Fumador"},
       title = "Box Plot - Gastos médicos según fume o no")

### **<font color="DarkBlue">Análisis de 3 variables - Análisis multivariado**

In [None]:
px.box(df,
       y="bmi",
       x = "region",
       color = "smoker",
       labels = {"bmi": "índice de maza corporal"},
       title = "Box Plot - índice de maza corporal según el sexo")

### **<font color="DarkBlue">Qué hacemos con los outlayers?**

In [None]:
gastos = df.charges

In [None]:
px.box(y=gastos,
       template="gridon",
       title = "BoxPlot Gastos",
       labels={"y":"Gastos"})

In [None]:
round(np.mean(gastos), 2)

13270.42

In [None]:
px.histogram(x=gastos,
             template="gridon",
             title = "Histograma Gastos",
             nbins=40,
             labels={"x":"Gastos"}).update_layout(bargap=0.2)

In [None]:
sp.skew(gastos)

1.5141797118745743

In [None]:
RIC=np.percentile(gastos, 75)-np.percentile(gastos, 25)
#Bigote superior
bigote = round(np.percentile(gastos, 75)+1.5*RIC,2)
bigote

34489.35

In [None]:
df_sin_outlayers = df[(df.charges < bigote)]
df_sin_outlayers

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500
