# 🔎 Exploratory Data Analysis (EDA)

## 📝 Introducción

El Análisis Exploratorio de Datos (EDA) es un paso fundamental en cualquier proyecto de ciencia de datos, ya que nos permite comprender mejor la estructura, las relaciones y los patrones presentes en los datos antes de realizar cualquier modelado o análisis avanzado.

En este proyecto, trabajaremos con dos conjuntos de datos principales:

1. **💓 Cardio Train Dataset**: Este conjunto de datos contiene información sobre diferentes indicadores de salud de personas, como edad, género, altura, peso, presión arterial, colesterol, entre otros. El objetivo es explorar estos datos para identificar posibles correlaciones y patrones que puedan ser útiles para predecir enfermedades cardiovasculares.

2. **🕊️ Cause of Deaths Dataset**: Este conjunto de datos proporciona información sobre las principales causas de muerte a nivel global, desglosadas por país y año. Exploraremos este dataset para entender la distribución de las causas de muerte en diferentes regiones y períodos de tiempo, así como identificar cualquier tendencia o anomalía significativa.

### 🎯 Objetivos del EDA

- **📊 Entender la Distribución de Datos**: Analizar la distribución de las variables individuales para identificar valores atípicos, faltantes, y entender la naturaleza de los datos.
- **🔗 Explorar Relaciones entre Variables**: Investigar posibles correlaciones entre diferentes variables que podrían ser útiles para modelado posterior.
- **🔍 Identificar Patrones y Tendencias**: Buscar patrones y tendencias en los datos que podrían revelar información relevante para los objetivos del proyecto.
- **🛠️ Preparación de Datos**: Realizar las transformaciones necesarias para limpiar y preparar los datos para el análisis y modelado.

### 🛠️ Metodología

1. 📥 **Carga de Datos**: Importar y cargar los datasets en un entorno de análisis.
2. 📊 **Resumen Estadístico**: Obtener un resumen estadístico básico de las variables en los datasets.
3. 📈 **Visualización de Datos**: Utilizar gráficos para visualizar la distribución de las variables y las relaciones entre ellas.
4. 🔍 **Detección de Valores Atípicos y Datos Faltantes**: Identificar y manejar valores atípicos y datos faltantes que puedan afectar el análisis.
5. 🔗 **Análisis de Correlaciones**: Examinar las correlaciones entre variables para identificar posibles relaciones que podrían ser útiles en modelos predictivos.


## 📥 Carga de datos


In [1]:
import sys
import os
from dotenv import load_dotenv

load_dotenv()
work_dir = os.getenv('WORK_DIR')


sys.path.append(work_dir)

In [2]:
from src.model.models import CardioTrain
from src.database.dbconnection import getconnection


In [3]:
from sqlalchemy.orm import sessionmaker, declarative_base, aliased
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


In [4]:
engine = getconnection()
Session = sessionmaker(bind=engine)
session = Session()

Conected successfully to database proyect!


In [5]:
table = aliased(CardioTrain)
query = session.query(table).statement
df = pd.read_sql(query, engine, index_col=None)

## 📊 Resumen Estadístico


In [6]:
df.head()

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,0,18393,2,168,62.0,110,80,1,1,0,0,1,0
1,1,20228,1,156,85.0,140,90,3,1,0,0,1,1
2,2,18857,1,165,64.0,130,70,3,1,0,0,0,1
3,3,17623,2,169,82.0,150,100,1,1,0,0,1,1
4,4,17474,1,156,56.0,100,60,1,1,0,0,0,0


## 📈 Visualización de Datos


## 🔍 Detección de Valores Atípicos y Datos Faltantes


## 🔗 Análisis de Correlaciones