# 🔎 Exploratory Data Analysis (EDA)

## 📝 Introducción

El Análisis Exploratorio de Datos (EDA) es un paso fundamental en cualquier proyecto de ciencia de datos, ya que nos permite comprender mejor la estructura, las relaciones y los patrones presentes en los datos antes de realizar cualquier modelado o análisis avanzado.

En este proyecto, trabajaremos con dos conjuntos de datos principales:

1. **💓 Cardio Train Dataset**: Este conjunto de datos contiene información sobre diferentes indicadores de salud de personas, como edad, género, altura, peso, presión arterial, colesterol, entre otros. El objetivo es explorar estos datos para identificar posibles correlaciones y patrones que puedan ser útiles para predecir enfermedades cardiovasculares.

2. **🕊️ Cause of Deaths Dataset**: Este conjunto de datos proporciona información sobre las principales causas de muerte a nivel global, desglosadas por país y año. Exploraremos este dataset para entender la distribución de las causas de muerte en diferentes regiones y períodos de tiempo, así como identificar cualquier tendencia o anomalía significativa.

### 🎯 Objetivos del EDA

- **📊 Entender la Distribución de Datos**: Analizar la distribución de las variables individuales para identificar valores atípicos, faltantes, y entender la naturaleza de los datos.
- **🔗 Explorar Relaciones entre Variables**: Investigar posibles correlaciones entre diferentes variables que podrían ser útiles para modelado posterior.
- **🔍 Identificar Patrones y Tendencias**: Buscar patrones y tendencias en los datos que podrían revelar información relevante para los objetivos del proyecto.
- **🛠️ Preparación de Datos**: Realizar las transformaciones necesarias para limpiar y preparar los datos para el análisis y modelado.

### 🛠️ Metodología

1. 📥 **Carga de Datos**: Importar y cargar los datasets en un entorno de análisis.
2. 📊 **Resumen Estadístico**: Obtener un resumen estadístico básico de las variables en los datasets.
3. 📈 **Visualización de Datos**: Utilizar gráficos para visualizar la distribución de las variables y las relaciones entre ellas.
4. 🔍 **Detección de Valores Atípicos y Datos Faltantes**: Identificar y manejar valores atípicos y datos faltantes que puedan afectar el análisis.
5. 🔗 **Análisis de Correlaciones**: Examinar las correlaciones entre variables para identificar posibles relaciones que podrían ser útiles en modelos predictivos.


## 📥 Carga de datos


In [23]:
import sys
import os
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))
import pandas as pd
from sqlalchemy.orm import sessionmaker
from sqlalchemy.exc import SQLAlchemyError
from src.database.dbconnection import getconnection
from src.model.models import CardioTrain, CauseOfDeaths, Base

# Conectar a la base de datos
engine = getconnection()
Session = sessionmaker(bind=engine)
session = Session()

try:
    # Crear las tablas en la base de datos si no existen
    Base.metadata.create_all(engine)
    
    # Cargar los datos de 'cardio_train.csv'
    cardio_data = pd.read_csv('../data/cardio_train.csv', encoding='latin1', delimiter=';')
    
    for index, row in cardio_data.iterrows():
        record = CardioTrain(
            age=int(row['age']),
            gender=int(row['gender']),
            height=int(row['height']),
            weight=float(row['weight']),
            ap_hi=int(row['ap_hi']),
            ap_lo=int(row['ap_lo']),
            cholesterol=int(row['cholesterol']),
            gluc=int(row['gluc']),
            smoke=bool(row['smoke']),
            alco=bool(row['alco']),
            active=bool(row['active']),
            cardio=bool(row['cardio'])
        )
        session.add(record)
    
    # Cargar los datos de 'cause_of_deaths.csv'
    deaths_data = pd.read_csv('../data/cause_of_deaths.csv', encoding='latin1', delimiter=',')
    
    for index, row in deaths_data.iterrows():
        record = CauseOfDeaths(
            country=row['Country/Territory'],
            year=int(row['Year']),
            cause=row["Cardiovascular Diseases"],
            deaths=int(row["Neoplasms"])
        )
        session.add(record)
    
    # Confirmar los cambios en la base de datos
    session.commit()
    print("Data loaded successfully!")

except SQLAlchemyError as e:
    # Manejar errores de SQLAlchemy
    session.rollback()  # Deshacer cualquier cambio si ocurre un error
    print(f"Error during data load: {e}")

except Exception as e:
    # Manejar otros posibles errores
    session.rollback()
    print(f"An unexpected error occurred: {e}")

finally:
    # Cerrar la sesión
    session.close()


Connection URL: postgresql://postgres:ETL@localhost:5432/postgres
Connected successfully to database postgres!
Data loaded successfully!


## 📊 Resumen Estadístico


## 📈 Visualización de Datos


## 🔍 Detección de Valores Atípicos y Datos Faltantes


## 🔗 Análisis de Correlaciones