In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [None]:
library("corrplot")
library ("dplyr")

#Levanto la base
Base<-read.csv("C:/Users/marti/Desktop/heart.csv",sep = ",")

#Elimino variables en las cuales no hay información
Base$oldpeak <- NULL 
Base$slp <- NULL 
Base$thall <- NULL 
Base$output <- NULL 
Base$caa <- NULL 

#Me fijo que variables tienen valores NA
colSums(is.na(Base))

#Hago un descriptivo de todas las variables
summary(Base)


#Hago un grafico de correlaciones

#Defino una paleta de colores que va del rojo al azul oscuro para el grafico de correlaciones
col3<-colorRampPalette(c("red","white","darkblue"))

#Vemos un grafico de las correlaciones
#tl.col=color de texto, tl.cex=tama?o del texto, diag= sin la diag principal
corrplot(cor(Base),tl.pos="t",type = "upper",tl.col = "black",tl.cex = .8,col=col3(100),bg="green")
#Con "add=true" agregamos los valores en el triangulo inferior
corrplot(cor(Base),cl.pos="n",tl.pos = "n", add=TRUE, type = "lower",method = "number",
         tl.col = "black",tl.cex = .8,col=col3(100),bg="green",diag =FALSE)

#En este grafico lo que se observa es que la correlaciones entre las variables son bastante pequeñas.
#Solo se pueden destacar las correlaciones mas o menos altas entre thalachh y age; entre exng y cp y entre exng y thalachh
#Esto significa que son pocas las variables que se relacionan entre sí.

#Realizo un analisis exploratorio de datos para cada una de las variables

#Age= Edad

hist(Base$age, main = "Histograma de frecuencias 1",
     xlab = "Edad (años cumplidos)",
     ylab = "Frecuencia",
     col = "red",
     border = "black",
     xlim = c(28, 77),
     ylim = c(0, 100))

  # Boxplot
  par(new = TRUE)
  boxplot(Base$age, horizontal = TRUE, axes = FALSE,
          lwd = 2, col = rgb(0, 1, 1, alpha = 0.15))


#No hay outliers
#En el box plot se observa que la media esta entre 50 y 60. Es asimetrico a la izquierda.
#La edad promedio de los pacientes es 54. Siendo el paciente de 29 años el más joven y de 77 años el mayor.
#La mayoria de los datos se concentran entre los 40 y los 70 años.
  
  
#############
#Sex= Sexo

barplot(table(Base$sex), # datos género
        main="Distribución género", # título
        col=c("red","blue"), # damos color a las barras
        names=c("Hombre", "Mujer"),
        ylab="Frecuencia") # etiqueta de las ordenadas
        

# Grafico de torta
pie(table(Base$sex), 
    main="Distribución por género", # título
    col=c("red","blue"), # damos color a los sectores
    labels=c("Hombre", "Mujer"))
# otra representación con tantos por ciento
piepercent <- round(prop.table(table(Base$sex))*100,2)
pie(table(Base$sex), 
    main="Distribución por género", # título
    col=c("red","blue"), # damos color a los sectores
    labels=piepercent)

#Lo que se observa en estos graficos es que la base está compuesta mayoritariamente por mujeres.
#Al ser una variable categorica utilizo unicamente un histograma y un grafico de torta.

##############
#CP= Tipo de dolor de pecho
barplot(table(Base$cp), 
        main="Tipos de dolor de pecho",
        col=c("red","blue","green", "yellow"),
        names=c("AT", "AA", "SDA", "Asint"), 
        ylab="Frecuencia")

#Al ser una variable de 4 categorias solo utilizo un histograma.
#El tipo de dolor que predomina es el AT, que significa angina tipica y en contra posicion a esto el tipo de dolor de pecho menos frecuente es el asintomatico
#Es decir que la minoria es asintomatico.


#####################
#trtbps= Presion arterial en reposo en mm Hg
par(mfrow = c(1, 1))
  
  
  hist(Base$trtbps, main = "Presion Arterial en reposo",
       xlab = "Presio",
       ylab = "Frecuencia",
       col = "red",
       border = "black",
       xlim = c(93, 200),
       ylim = c(0, 100))  
  
  # Densidad
  lines(density(Base$trtbps), col = "blue", lwd = 2)
  
  # Boxplot
  par(new = TRUE)
  boxplot(Base$trtbps, horizontal = TRUE, axes = FALSE,
          lwd = 2, col = rgb(0, 1, 1, alpha = 0.15))



#Hay outliers, es decir, valores fuera de los limites del diagrama de caja.
#La distribución de los datos es asimetrica a la derecha.
#En el box plot se observa que la mediana está entre 120 y 140 aproximadamente. Es asimetrico a la izquierda.
#EL promedio de presion arterial en reposo en los pacientes es de 131.6. El valor minimo es 94 y el valor maximo es 200.
#La presion arterial se concentra en los valores entre 120 y 140.
  
################
#Chol= Colesterol en mg/dl mediante sensor BMI
{par(mfrow = c(1, 1))
  
  # Histograma
  hist( Base$chol, probability = TRUE, ylab = "Frecuencia", col = "grey",
          axes = FALSE, main = "Colesterol en mg",)
  
  # Eje
  axis(1)
  
  # Densidad
  lines(density(Base$chol), col = "red", lwd = 2)
  
  # Boxplot
  par(new = TRUE)
  boxplot(Base$chol, horizontal = TRUE, axes = FALSE,
          lwd = 2, col = rgb(0, 1, 1, alpha = 0.15))

}

#Hay outliers
#La distribución de los datos es asimetrica a la derecha,
#En el box plot se observa que la media esta entre 211 y 274 pero la mediana es 240. Está bastante centrado.
#El tercer quartil se encuentra alejado de la mediana.
#El promedio de colesterol en mg de los pacientes es de 246.El valor minimo es 126 y el valor maximo es 564.

###########
#Fbs= Glucemia en ayunas mayor a 120mg/dl
barplot(table(Base$fbs), 
        main="Glucemia en ayunas mayor a 120 mg/dl",
        col=c("red","blue"),
        names=c("Falso", "Verdadero"),
        ylab="Frecuencia")

#La mayoria no presenta una glucemia mayor a 120mg/dl

###########
#Restecg= Resultados electrocardiograficos en reposo
barplot(table(Base$restecg), 
        main="Resultados electrocardiograficos en reposo",
        col=c("red","blue", "green"),
        names=c("Normal", "Anormal", "hipertrofia"),
        ylab="Frecuencia")

#Los resultados electrocardiograficos en reposo se concentran en normal y anormal, pero la categoria anormal es un poco mayor.
#Es decir, los resultados electrocardiograficos anormales son los más frecuentes.

############
#thalachh= Frecuencia cardiaca maxima alcanzada
{par(mfrow = c(1, 1))
  
  # Histograma
  hist( Base$thalachh, probability = TRUE, ylab = "Observaciones", col = "grey",
        axes = FALSE, main = "Frecuencia cardiaca maxima alcanzada",)
  
  # Eje
  axis(1)
  
  # Densidad
  lines(density(Base$thalachh), col = "red", lwd = 2)
  
  # Boxplot
  par(new = TRUE)
  boxplot(Base$thalachh, horizontal = TRUE, axes = FALSE,
          lwd = 2, col = rgb(0, 1, 1, alpha = 0.15))
  
  
}

#Hay 1 outliers
#La distribución de los datos es asimetrica a la izquierda.
#En el box plot se observa que la media esta entre 133 y 166. Es asimetrico a la izquierda.
# el primer quartil se encuentra bastante alejado de la mediana.
#La mediana es 153.
#La concentracion de los datos se encuentra entre los valores de 140 y 170 aproximadamente.
#El promedio de la frecuencia cardiaca maxima es de 149.

###############
#Exng= Angina inducida por ejercicio
barplot(table(Base$exng), 
        main="Angina inducida por ejercicio",
        col=c("pink","orange"),
        names=c("No", "Si"),
        ylab="Frecuencia")

#La mayoria de los pacientes no presentan angina inducida por ejercicio.
