# Laboratorio 1 - Análisis Estadístico

## Set de datos: Hepatitis

### https://archive.ics.uci.edu/ml/datasets/hepatitis

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import math
import seaborn as sns 
sns.set(style="whitegrid", color_codes=True)


In [None]:
from sklearn.impute import SimpleImputer

In [None]:
#Definición de variables y lectura del Dataset
col_names=['Class', 'AGE', 'SEX', 'STEROID','ANTIVIRALS','FATIGUE','MALAISE','ANOREXIA','LIVER BIG','LIVER FIRM','SPLEEN PALPABLE','SPIDERS','ASCITES','VARICES','BILIRUBIN','ALK PHOSPHATE','SGOT','ALBUMIN','PROTIME','HISTOLOGY'] 
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/hepatitis/hepatitis.data', names=col_names)

In [None]:
df.head()

## Descripción de Variables y la clase Objetivo

### Clase objetivo
> La Clase Objetivo corresponde a la variable Class, y el objetivo es a partir de las variables presentes en el universo muestral, predecir el valor DIE.

### Variable AGE
Este corresponde a la edad de los sujetos, la cual varía entre 7 y 78 años.

### Variable SEX
Corresponde al Sexo de los individuos.

### Variable STEROID
Indica si hubo interacción con esteroides anabolizantes, los cuales aumentan entre un 20 y un 30% el riesgo de sufrir una hepatitis tóxica.

Ref.
https://www.abc.es/salud/noticias/20140222/abci-hepatitis-anabolizantes-201402212030.html

### Variable ANTIVIRALS
Indica si hubo tratamiento con antivirales (como Paritaprevir o ombitasvir)

Ref. https://www.minsal.cl/wp-content/uploads/2016/04/GUIA-VHC.-2015-Editada.pdf

### Variable FATIGUE
La fatiga crónica o cansancio es uno de los primeros síntomas que aparecen en los cuadros de hepatitis. Si bien es cierto la fatiga crónica es un síntoma que está presente en muchas enfermedades, es común en aquellas de origen inflamatorio.

Ref.
https://asscat-hepatitis.org/la-fatiga-como-sintoma-de-enfermedad-hepatica-cronica-nuevos-conocimientos-y-enfoques-terapeuticos/

### Variable MALAISE
Corresponde a si tiene o no dolor (o malestar) en la zona abdominal. Este dolor se ubica caracteristicamente en la parte superior derecha del abdomen, debajo de las costillas. Incluso en algunas circunstancias, un simple examen del abdomen permite detectar la inflamación hepática.

Ref. 
https://www.enfermeria21.com/diario-dicen/hepatitis-sintomas-tratamiento-y-todo-lo-que-debes-saber-DDIMPORT-057824/


## Variable ANOREXIA
La anorexia nerviosa es uno de los síntomas que pueden aparecer en conjunto con la hepatitis o fallo hepático agudo.

Ref. http://scielo.isciii.es/scielo.php?script=sci_arttext&pid=S0212-16112018000100245

## Variable LIVER BIG
Este síntoma corresponde al crecimiento anormal del hígado, la cual es síntoma de muchas enfermedades, una de las cuales es la hepatitis. En medicina este síntoma se denomina "hepatomegalia".

Ref.
https://www.mayoclinic.org/es-es/diseases-conditions/enlarged-liver/symptoms-causes/syc-20372167.

## Variable LIVER FIRM
Es el endurecimiento del hígado, la cual tiene otro término en medicina, que es la enfermedad hepática crónica con fibrosis, o comúnmente llamada Cirrosis hepática. Dicho síntoma tiene por origen, las hepatitis víricas B o C.

Ref. 
https://www.fesemi.org/informacion-pacientes/conozca-mejor-su-enfermedad/cirrosis-hepatica

## Variable SPLEEN PALPABLE
Es un síntoma similar a LIVER BIG, con la diferencia que corresponde al Bazo. Es un crecimiento anormal del Bazo, lo cual es muy difícil de detectar, dado que en exámenes de rayos x, el 16% son de tamaño normal. Cabe señalar que el Bazo es un órgano que pesa 250 gramos, que disminuye con la edad y que comúnmente no se palpa.

Ref.
https://amf-semfyc.com/web/article_ver.php?id=1493

## Variable SPIDERS
Esta variable corresponde a las comúnmente llamadas "arañas vasculares", las cuales corresponden a lesiones cutáneas que se presentan en la piel. Estas son frecuentes en mujeres embarazadas, desórdenes hormonales (derivado del uso de anticonceptivos), enfermedades hepáticas. Cerca del 33% de los pacientes que tienen cirrosis, presentan arañas vasculares.

Ref https://galiciaclinica.info/PDF/26/587.pdf


## Variable ACITES
Corresponde al fenómeno de Ascitis o más conocido como acumulación de líquido en el abdomen y piernas. Este síntoma es derivado de una enfermedad que causa daño hepático grave, como la Hepatitis B o C, consumo de alcohol durante muchos años, o hígado graso.

Ref
https://www.fesemi.org/informacion-pacientes/conozca-mejor-su-enfermedad/cirrosis-hepatica
https://medlineplus.gov/spanish/ency/article/000286.htm

## Variable VARICES
Corresponde a las várices esofágicas, las cuales son una complicación común derivada de la cirrosis. Una de las complicaciones de este síntoma es la altísima mortalidad en los casos que estas várices sufran una ruptura.

Ref.
http://www.scielo.org.pe/scielo.php?script=sci_arttext&pid=S1728-59172007000100011

## Variable BILIRUBIN
La Bilirrubina es un pigmento de color amarillo anaranjado que se almacena en en hígado formando parte de la bilis. Cuando esta se acumula, es responsable del color amarillo en la piel o en los ojos (ictericia). Es frecuente en las hepatitis A, B y E.

Ref.

https://www.clinicbarcelona.org/asistencia/enfermedades/hepatitis-virica/diagnostico


## Variable ALK PHOSPHATE
Corresponde a la fostatasa alcalina (*Alkaline Phosphatase*), la cual es una enzima que está presente en todo el cuerpo, sin embargo ésta se concentra en el higado. Cuando existe una enfermedad hepática, esta enzima se filtra al torrente sanguíneo, aumentando su presencia.

Ref.
https://medlineplus.gov/spanish/pruebas-de-laboratorio/fosfatasa-alcalina/

## Variable SGOT
Es otra enzima presente en el organismo, llamada Aspartato aminostransferasa. Su disminución está asociada a enfermedades hepáticas, sin embargo también está asociada a otras no hepáticas como el hipertiroidismo o enfermedad celíaca.

Ref.
http://medicinafamiliar.uc.cl/html/articulos/155.html

## Variable ALBUMIN
Albúmina. Es la principal proteína de la sangre con múltiples funciones. Se produce en el hígado y su descenso en sangre indica que el hígado no está funcionando de forma correcta.

Ref. https://www.clinicbarcelona.org/asistencia/enfermedades/hepatitis-virica/diagnostico


## Variable PROTIME
Es el tiempo de Protrombina, la cual se traduce en el tiempo de coagulación de la sangre. si existe un daño hepático agudo o crónico, la sangre demora mucho más tiempo en coagular.

Ref. https://www.clinicbarcelona.org/asistencia/enfermedades/hepatitis-virica/diagnostico


## Variable HISTOLOGY
Corresponde a lo que comúnmente se llama hemograma, lo cual es un examen a la sangre, el cual indica distintas métricas. En el caso de la hepatitis, existe un bajo nivel de hematíes, lo que se traduce como Anemia.

Ref. https://www.clinicbarcelona.org/asistencia/enfermedades/hepatitis-virica/diagnostico


---



## Revisión preliminar de los datos

---



In [None]:
# Primeras columnas
print(df.head())

In [None]:
# Métricas de individuos, variables
df.shape

In [None]:
# Tipos de datos del universo muestral
df.dtypes

In [None]:
df.describe()

In [None]:
# datos nulos
pd.isnull(df)
pd.isnull(df['BILIRUBIN'])

# Traducir Datos Categóricos
Debido a que para los algoritmos de aprendizaje automático, se requiere tener datos numéricos, necesitamos convertir los datos categóricos que tienen valores "no", "sí" a 0 y 1 respectivamente

In [None]:
# Normalizamos los valores binarios
# Sexo
# 1: Hombres
# 2: Mujeres
#df['SEX'] = df['SEX'].map({2:0, 1:1})

# Clase 
# 1: Fallecidos (0 <- 1)
# 2: Vivos      (0 <- 2)
#df['Class'] = df['Class'].map({1:0, 2:1})

#####. se comenta dado que no aplica. 
# Resto de los elementos (1 = no, 2 = si y "?" = NaN)
# df['STEROID'] = df['STEROID'].map({'2':1, '1':0, '?':np.nan})
# df['ANTIVIRALS'] = df['ANTIVIRALS'].map({2:1, 1:0, '?':np.nan})
# df['FATIGUE'] = df['FATIGUE'].map({'1':2, '':0, '?':np.nan})
# df['MALAISE'] = df['MALAISE'].map({'2':1, '1':0, '?':np.nan})
# df['ANOREXIA'] = df['ANOREXIA'].map({'2':1, '1':0, '?':np.nan})
# df['LIVER BIG'] = df['LIVER BIG'].map({'2':1, '1':0, '?':np.nan})
# df['LIVER FIRM'] = df['LIVER FIRM'].map({'2':1, '1':0, '?':np.nan})
# df['SPLEEN PALPABLE'] = df['SPLEEN PALPABLE'].map({'2':1, '1':0, '?':np.nan})
# df['SPIDERS'] = df['SPIDERS'].map({'2':1, '1':0, '?':np.nan})
# df['ASCITES'] = df['ASCITES'].map({'2':1, '1':0, '?':np.nan})
# df['VARICES'] = df['VARICES'].map({'2':1, '1':0, '?':np.nan})
# df['HISTOLOGY'] = df['HISTOLOGY'].map({2:1, 1:0, '?':np.nan})

# Resto de los valores faltantes en todas las columnas
df.replace({'?': np.nan}, inplace = True)


#Se convierten todas los valores del dataFrame en Float
df = df.astype(float)

# Datos faltantes o desconocidos

In [None]:
# Tratamiento de los NAs
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')



In [None]:
# Análisis de Modas
print("AGE", df["AGE"].mode())
print("SEX", df["SEX"].mode())


## Attribute information: 
     1. Class: DIE, LIVE
     2. AGE: 10, 20, 30, 40, 50, 60, 70, 80
     3. SEX: male, female
     4. STEROID: no, yes
     5. ANTIVIRALS: no, yes
     6. FATIGUE: no, yes
     7. MALAISE: no, yes
     8. ANOREXIA: no, yes
     9. LIVER BIG: no, yes
    10. LIVER FIRM: no, yes
    11. SPLEEN PALPABLE: no, yes
    12. SPIDERS: no, yes
    13. ASCITES: no, yes
    14. VARICES: no, yes
    15. BILIRUBIN: 0.39, 0.80, 1.20, 2.00, 3.00, 4.00
    16. ALK PHOSPHATE: 33, 80, 120, 160, 200, 250
    17. SGOT: 13, 100, 200, 300, 400, 500, 
    18. ALBUMIN: 2.1, 3.0, 3.8, 4.5, 5.0, 6.0
    19. PROTIME: 10, 20, 30, 40, 50, 60, 70, 80, 90
    20. HISTOLOGY: no, yes

    Nota:  1 = no, 2 = si

## Métricas básicas

In [None]:
## equivalente a summary() (R)

#Análisis de todas las variables (ensalada rusa)
# df.describe() --> en realidad esta sentencia no aporta mucho (ver pasos siguientes)

In [None]:
# Descripción de variables cuantitativas
cont_vars = ['AGE', 'BILIRUBIN', 'PROTIME', 'ALBUMIN', 'ALK PHOSPHATE', 'SGOT']
df[cont_vars].describe()

In [None]:
# Descripción de variables cualitativas 
disc_vars = ['SEX' , 'STEROID', 'ANTIVIRALS', 'FATIGUE','MALAISE','ANOREXIA','LIVER BIG','LIVER FIRM','SPLEEN PALPABLE', 'SPIDERS','ASCITES','VARICES', 'HISTOLOGY']
#df[disc_vars].apply(pd.Series.value_counts)
# reemplazo valores de clase por 1: DIE, 2: LIVE
df[disc_vars].apply(pd.Series.value_counts)

In [None]:
df_m=pd.DataFrame(df) 
df_m["SEX"].value_counts() 
in_fem = (df['SEX'] == 2).value_counts()
df_m.head()

print(in_fem)

Hay 16 mujeres y 139 hombres


In [None]:
df2 = df.groupby(['SEX', 'Class'])['SEX'].count().unstack('Class').fillna(0)
df2

De los pacientes fallecidos 32 son hombre y 0 mujeres.
De los pacientes vivos 16 son mujeres y 0 hombres.


In [None]:
hepatitis_analysis = df.dropna()
interesting_values_x = ['ALBUMIN', 'ANOREXIA','ALK PHOSPHATE', 'ASCITES', 'BILIRUBIN', 'PROTIME', 'SGOT', 'Class']
hepatitis_analysis = hepatitis_analysis[interesting_values_x]
hepatitis_analysis.head()

In [None]:
# Pacientes fallecidos (para obtener la tasa de mortalidad)
pacientes_fallecidos = np.sum(df['Class'] == 1)
tasa_mortalidad = round((pacientes_fallecidos/df.shape[0])*100,2)
#pacientes que viven

total_de_pacientes = df.shape[0]
pacientes_vivos = (np.sum(df['Class'] == 2)/total_de_pacientes)*100
print("Tasa de mortalidad = ",tasa_mortalidad,"%")
print("Tasa de pacientes vivos:", round(pacientes_vivos,2),"%")

Podemos observar anteriormente que aunque nuestro conjunto de datos no está perfectamente equilibrado (el 79,35% de los pacientes está contenido en la clase LIVE mientras que solo el 20,65% está en la clase DIE), no sufre un desequilibrio de clase alta que nos permite continuar con nuestro análisis.

# Gráficos

In [None]:
# Creamos un df auxiliar para realizar agrupación en función de la clase objetivo y agregar los labels
df2 = df.groupby(['SEX', 'Class'])['SEX'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre SEX y la Clase Objetivo")

In [None]:
df2 = df.groupby(['STEROID', 'Class'])['STEROID'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre STEROID y la Clase Objetivo")

In [None]:
df2 = df.groupby(['FATIGUE', 'Class'])['FATIGUE'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre FATIGUE y la Clase Objetivo")

In [None]:
df2 = df.groupby(['MALAISE', 'Class'])['MALAISE'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre MALAISE y la Clase Objetivo")

In [None]:
df2 = df.groupby(['ANOREXIA', 'Class'])['ANOREXIA'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre ANOREXIA y la Clase Objetivo")

In [None]:
df2 = df.groupby(['LIVER BIG', 'Class'])['LIVER BIG'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre LIVER BIG y la Clase Objetivo")

In [None]:
df2 = df.groupby(['LIVER FIRM', 'Class'])['LIVER FIRM'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre LIVER FIRM y la Clase Objetivo")

In [None]:
df2 = df.groupby(['SPLEEN PALPABLE', 'Class'])['SPLEEN PALPABLE'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre SPLEEN PALPABLE y la Clase Objetivo")

In [None]:
df2 = df.groupby(['VARICES', 'Class'])['VARICES'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre VARICES y la Clase Objetivo")

In [None]:
df2 = df.groupby(['ASCITES', 'Class'])['ASCITES'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre ASCITES y la Clase Objetivo")

In [None]:
df2 = df.groupby(['HISTOLOGY', 'Class'])['HISTOLOGY'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre HISTOLOGY y la Clase Objetivo")

In [None]:
df2 = df.groupby(['ANTIVIRALS', 'Class'])['ANTIVIRALS'].count().unstack('Class').fillna(0)
df2.plot(kind='bar', stacked=True,  color=["r","b"], title="Relación entre ANTIVIRALS y la Clase Objetivo")

De lo anterior, se puede inferir que si el paciente es mujer (SEX = 2), entonces la clase objetivo = 2 (Class = "LIVE")

In [None]:
# Configuracion para todos los gráficos de boxplot
mlprops = dict(linewidth=2.5, color='red')
boxp = dict(linewidth=2, facecolor="lightblue", color="navy")

In [None]:
#Distribución de AGE
data = df["AGE"]
fig = plt.figure(figsize =(10, 5))
plt.boxplot(data, vert=False,labels=["AGE"],patch_artist=True,medianprops=mlprops, boxprops=boxp, ) 
plt.title("Distribución de AGE")
# show plot 
plt.show() 

La media para el atributo AGE es 40 aproximadamente, los datos estan agrupados entre el primer y tercer cuartil. No se detectan valores atípicos.

In [None]:
#Distribución de Bulirrubina
data = df['BILIRUBIN']
data = data.dropna()
fig = plt.figure(figsize =(10, 5))
boxp = dict(linewidth=2, facecolor="lightblue", color="navy")
plt.boxplot(data, vert=False,labels=["BILIRUBIN"],patch_artist=True,medianprops=mlprops, boxprops=boxp, ) 
plt.title("Distribución de BILIRUBIN")
# show plot 
plt.show()

El atributo Bilirubin que es frecuente en las hepatitis A, B y E, tiene una baja incidencia en la muestra de los datos y posee valores atipicos.



In [None]:
#Distribución de PROTIME
data = df['PROTIME']
data = data.dropna()
fig = plt.figure(figsize =(10, 5))
boxp = dict(linewidth=2, facecolor="lightblue", color="navy")
plt.boxplot(data, vert=False,labels=["PROTIME"],patch_artist=True,medianprops=mlprops, boxprops=boxp, ) 
plt.title("Distribución de PROTIME")
# show plot 
plt.show()

In [None]:
#Distribución de ALBUMIN
data = df['ALBUMIN']
data = data.dropna()
fig = plt.figure(figsize =(10, 5))
boxp = dict(linewidth=2, facecolor="lightblue", color="navy")
plt.boxplot(data, vert=False,labels=["ALBUMIN"],patch_artist=True,medianprops=mlprops, boxprops=boxp, ) 
plt.title("Distribución de ALBUMIN")
# show plot 
plt.show()

In [None]:
data = df['ALK PHOSPHATE']
data = data.dropna()
fig = plt.figure(figsize =(10, 5))
boxp = dict(linewidth=2, facecolor="lightblue", color="navy")
plt.boxplot(data, vert=False,labels=["ALK PHOSPHATE"],patch_artist=True,medianprops=mlprops, boxprops=boxp, ) 
plt.title("Distribución de ALK PHOSPHATE")
# show plot 
plt.show()



In [None]:
#Distribución de SGOT
data = df['SGOT']
data = data.dropna()
fig = plt.figure(figsize =(10, 5))
boxp = dict(linewidth=2, facecolor="lightblue", color="navy")
plt.boxplot(data, vert=False,labels=["SGOT"],patch_artist=True,medianprops=mlprops, boxprops=boxp, ) 
plt.title("Distribución de SGOT")
# show plot 
plt.show()

In [None]:
disc_vars = ['SEX', 'STEROID', 'ANTIVIRALS', 'FATIGUE','MALAISE','ANOREXIA','LIVER BIG','LIVER FIRM','SPLEEN PALPABLE', 'SPIDERS',
             'ASCITES','VARICES', 'HISTOLOGY']
datos = df[disc_vars].apply(pd.Series.value_counts)
#datos.index=['DIE', 'LIVE']
datos

In [None]:
#Histograma AGE
plt.figure(figsize=(6,3.5))
plt.subplot(1, 2, 1)
sns.distplot(df['AGE'],
             kde_kws={"color":"blue","lw":1.5,"alpha":0.8},
             hist_kws={"color":"blue","alpha":0.3})
sns.despine()

#Histograma PROTIME
plt.subplot(1, 2, 2)
sns.distplot(df['PROTIME'],
            kde_kws={"color":"red","lw":1.5,"alpha":0.8},
            hist_kws={"color":"red","alpha":0.6})
sns.despine();

In [None]:
plt.figure(figsize=(6,3.5))
plt.subplot(1, 2, 1)
sns.distplot(df['SGOT'],
             kde_kws={"color":"blue","lw":1.5,"alpha":0.8},
             hist_kws={"color":"green","alpha":0.3})
plt.subplot(1, 2, 2)
sns.distplot(df['ALK PHOSPHATE'],
            kde_kws={"color":"red","lw":1.5,"alpha":0.8},
            hist_kws={"color":"pink","alpha":0.6})
sns.despine();

In [None]:

plt.figure(figsize=(7,3.5))
plt.subplot(1, 2, 1)
sns.distplot(df['BILIRUBIN'],
             kde_kws={"color":"green","lw":1.5,"alpha":0.8},
             hist_kws={"color":"lightblue","alpha":0.8})
sns.despine()
plt.subplot(1, 2, 2)
sns.distplot(df['ALBUMIN'], 
             kde_kws={"color":"red","lw":1.5,"alpha":0.8},
             hist_kws={"color":"orange","alpha":0.3})
sns.despine();

In [None]:
plt.figure(figsize=(6,3.5))
plt.subplot(1, 2, 1)
sns.distplot(df['PROTIME'], 
             kde_kws={"color":"orange","lw":1.5,"alpha":0.8},
             hist_kws={"color":"yellow","alpha":0.3})
sns.despine();

# 

Una característica interesante es que podemos usar el parámetro tono para mostrar con diferentes colores en el gráfico, los diferentes niveles de una variable categórica. En nuestro caso, nos interesa identificar a los pacientes en Clase 1 y 2.

In [None]:
sns.set(style="whitegrid", color_codes=True)
g = sns.pairplot(df, x_vars = ['BILIRUBIN', 'PROTIME', 'ALBUMIN', 'ALK PHOSPHATE', 'SGOT'], 
               y_vars = ['BILIRUBIN', 'PROTIME', 'ALBUMIN', 'ALK PHOSPHATE', 'SGOT'], 
               hue = 'Class', 
               kind= 'scatter',
               palette = 'tab10',
               height = 2,
               plot_kws={"s": 35, "alpha": 0.8})
g.fig.get_children()[-1].set_bbox_to_anchor((0.05, 0.9, 0.18, 0.1));

La función pairplot se puede usar para visualizar la relación entre las diferentes variables numéricas, el parámetro tono sirve para mostrar con  colores, los diferentes niveles de una variable categórica.

In [None]:
graph = sns.PairGrid(df,
                 x_vars=["ANOREXIA", "ASCITES", "ANTIVIRALS"],
                 y_vars=['BILIRUBIN', 'PROTIME', 'ALBUMIN', 'ALK PHOSPHATE', 'SGOT'],
                 hue = 'Class')
graph.map(sns.swarmplot, s = 6)
graph.add_legend(frameon=True, bbox_to_anchor=(0.33, 0.96));

# Info general

In [None]:
# Asegurémonos de que las imágenes aparezcan insertadas en iPython Notebook
%matplotlib inline
# Creaemos una gráfica de barras
df.plot(kind='bar');
sns.set(style="whitegrid", color_codes=True)

In [None]:
df.dtypes
df.info()

# Análisis de Correlación
Para esta tarea, usaremos el coeficiente de correlación de Pearson porque es un buen parámetro para evaluar la fuerza de la relación lineal entre dos variables. Para realizar el análisis de correlación con todas nuestras variables

In [None]:
import matplotlib.pyplot as plt
import statsmodels.api as sm

corr = df.dropna().corr(method = 'pearson')
#corr = df.set_index('PROTIME').corr()
#sm.graphics.plot_corr(corr, xnames=list(corr.columns))
#plt.show()

plt.figure(figsize=(7, 7))
cmap = sns.diverging_palette(240, 10, n=9, center = 'light')
sns.heatmap(corr, linewidths=.2, cmap = cmap, cbar_kws={"shrink": .8}, square=True, xticklabels=True, yticklabels=True);
plt.yticks(size= 8, rotation=0) 
plt.xticks(size = 8, rotation = 90);

# Conclusiones
El gráfico muestra una matriz de 20 x 20 y llena de color cada celda en base al coeficiente de correlación del par que la representa. El valor en la posición (a, b) representa el coeficiente de correlación entre los elementos de la fila a y la columna b. Será igual al valor en la posición (b, a).

Los marcadores de los ejes denotan el rasgo que cada uno de ellos representa.

*   Un valor positivo grande (cercano a 1,0) indica una fuerte correlación positiva, es decir, si el valor de una de las variables aumenta, el valor de la otra variable aumenta también.
*   Un valor negativo grande (cercano a -1,0) indica una fuerte correlación negativa, es decir, que el valor de una de las variables disminuye al aumentar el de la otra y viceversa.
*   Un valor cercano a 0 (tanto positivo como negativo) indica la ausencia de cualquier correlación entre las dos variables, y por lo tanto esas variables son independientes entre sí.
*   Cada celda de la matriz anterior también está representada por sombras de un color. En este caso, los tonos más oscuros del color indican valores más pequeños, mientras que los tonos más brillantes corresponden a valores más grandes (cerca de 1).  Esta escala se da con la ayuda de una barra de color en el lado derecho del gráfico.





Podemos observar en el mapa de calor que algunas de las variables muestran un coeficiente de ~ 0,8  o -0,4, pero la mayoría de ellas presentan un coeficiente de correlación muy bajo. Entonces podemos concluir que no existe una fuerte correlación lineal entre nuestras variables.


# Formular hipotesis

Formular hipotesis y modificar grafico contraste de hipotesis.

*   Ho Hipótesis Nula (por defecto)
*   H1 Hipótesis Alternativa


Finalmente se acepta o se rechaza la hipotesis Nula.

PD:  No se si es necesario pero hay que evaluar.

In [None]:
plt.figure(figsize=(16,10))


plt.fill_between(x=np.arange(-4, -2, 0.01), y1 = stats.norm.pdf(np.arange(-4,-2,0.01)), facecolor="red", alpha = 0.3)
plt.fill_between(x=np.arange(-2, 2, 0.01), y1 = stats.norm.pdf(np.arange(-2,2,0.01)), facecolor="white", alpha = 0.3)
plt.fill_between(x=np.arange(2, 4, 0.01), y1 = stats.norm.pdf(np.arange(2,4,0.01)), facecolor="red", alpha = 0.6)


plt.fill_between(x=np.arange(-4, -2, 0.01), y1 = stats.norm.pdf(np.arange(-4,-2,0.01), loc = 3, scale=2), facecolor="white", alpha = 0.3)
plt.fill_between(x=np.arange(-2, 2, 0.01), y1 = stats.norm.pdf(np.arange(-2,2,0.01), loc = 3, scale=2), facecolor="blue", alpha = 0.3)
plt.fill_between(x=np.arange(2, 4, 0.01), y1 = stats.norm.pdf(np.arange(2,4,0.01), loc = 3, scale=2), facecolor="white", alpha = 0.3)

plt.plot(np.arange(-4,4,0.01), stats.norm.pdf(np.arange(-4,4,0.01)))
plt.plot(np.arange(-4,4,0.01), stats.norm.pdf(np.arange(-4,4,0.01), loc=3, scale=2))

plt.text(x=-0.8, y=0.15, s="Hipotesis nula")
plt.text(x=2.5, y=0.15, s="Hipotesis alternativa")
plt.text(x=2.1, y=0.01, s="Error tipo I")
plt.text(x=-3.2, y=0.01, s="Error tipo I")
plt.text(x=0, y=0.02, s="Error tipo II")

plt.plot()

# Medidas de tendencia central

In [None]:
# media de variable age
print('media de variable age', df['AGE'].mean())
# media geometrica
print('media geometrica',stats.gmean(df['AGE']))
# media armónica
print('media armónica',stats.hmean(df['AGE']))
# mediana
print('mediana',df['AGE'].median())
# media truncada, recortando el 10 superior e inferior
print('media truncada, recortando el 10 superior e inferior',stats.trim_mean(df['AGE'], .10))
# moda
print('moda',df['AGE'].mode())

# Medidas de dispersión

In [None]:
# varianza
print('varianza',df['AGE'].var())
# desvio estándar
print('desvio estándar',df['AGE'].std())
# cuartiles
print('cuartiles',df['AGE'].quantile([.25, .5, .75]))
print('--------------------------------')
cajas=plt.boxplot(list(df['AGE']))

# Covarianza

In [None]:
# covarianza
df.cov()

# Correlación

In [None]:
# coeficiente de correlación
df.corr()

# Resumen estadístico

Hasta aquí hemos calculado tanto las medidas de tendencia central como las medidas de dispersión una por una, pero podemos obtener un resumen estadístico con las principales medidas.  Pandas nos ofrece el método describe, un comando con el cual se ve un resumen de las principales medidas estadísticas.

In [None]:
# resumen estadístico
df['Class'].describe()

In [None]:
df.replace({np.nan: '0'}, inplace = True)
df

In [None]:
par= sns.pairplot(df)

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import roc_curve, auc
from sklearn.metrics import precision_recall_curve, confusion_matrix
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

In [None]:

df.isnull().sum()

In [None]:
plot = df['Class'].value_counts().plot(kind='bar',
                                            title='Enfermos hepatitis', legend="True")

# 1.- fallecidos
# 2.- vivos

In [None]:
# gráfico de barras de frecuencias relativas.
plot = (100 * df['Class'].value_counts() / len(df['Class'])).plot(
kind='bar', title='Enfermos Hepatitis %')

In [None]:
plot = df['SEX'].value_counts().plot(kind='bar',
                                            title='Pacientes hepatitis', legend="True")
#1.- Hombres
#2.- Mujeres