# üîé Exploratory Data Analysis (EDA)

## üìù Introducci√≥n

El An√°lisis Exploratorio de Datos (EDA) es un paso fundamental en cualquier proyecto de ciencia de datos, ya que nos permite comprender mejor la estructura, las relaciones y los patrones presentes en los datos antes de realizar cualquier modelado o an√°lisis avanzado.

En este proyecto, trabajaremos con dos conjuntos de datos principales:

1. **üíì Cardio Train Dataset**: Este conjunto de datos contiene informaci√≥n sobre diferentes indicadores de salud de personas, como edad, g√©nero, altura, peso, presi√≥n arterial, colesterol, entre otros. El objetivo es explorar estos datos para identificar posibles correlaciones y patrones que puedan ser √∫tiles para predecir enfermedades cardiovasculares.

2. **üïäÔ∏è Cause of Deaths Dataset**: Este conjunto de datos proporciona informaci√≥n sobre las principales causas de muerte a nivel global, desglosadas por pa√≠s y a√±o. Exploraremos este dataset para entender la distribuci√≥n de las causas de muerte en diferentes regiones y per√≠odos de tiempo, as√≠ como identificar cualquier tendencia o anomal√≠a significativa.

### üéØ Objetivos del EDA

- **üìä Entender la Distribuci√≥n de Datos**: Analizar la distribuci√≥n de las variables individuales para identificar valores at√≠picos, faltantes, y entender la naturaleza de los datos.
- **üîó Explorar Relaciones entre Variables**: Investigar posibles correlaciones entre diferentes variables que podr√≠an ser √∫tiles para modelado posterior.
- **üîç Identificar Patrones y Tendencias**: Buscar patrones y tendencias en los datos que podr√≠an revelar informaci√≥n relevante para los objetivos del proyecto.
- **üõ†Ô∏è Preparaci√≥n de Datos**: Realizar las transformaciones necesarias para limpiar y preparar los datos para el an√°lisis y modelado.

### üõ†Ô∏è Metodolog√≠a

1. üì• **Carga de Datos**: Importar y cargar los datasets en un entorno de an√°lisis.
2. üìä **Resumen Estad√≠stico**: Obtener un resumen estad√≠stico b√°sico de las variables en los datasets.
3. üìà **Visualizaci√≥n de Datos**: Utilizar gr√°ficos para visualizar la distribuci√≥n de las variables y las relaciones entre ellas.
4. üîç **Detecci√≥n de Valores At√≠picos y Datos Faltantes**: Identificar y manejar valores at√≠picos y datos faltantes que puedan afectar el an√°lisis.
5. üîó **An√°lisis de Correlaciones**: Examinar las correlaciones entre variables para identificar posibles relaciones que podr√≠an ser √∫tiles en modelos predictivos.


## üì• Carga de datos


In [23]:
import sys
import os
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))
import pandas as pd
from sqlalchemy.orm import sessionmaker
from sqlalchemy.exc import SQLAlchemyError
from src.database.dbconnection import getconnection
from src.model.models import CardioTrain, CauseOfDeaths, Base

# Conectar a la base de datos
engine = getconnection()
Session = sessionmaker(bind=engine)
session = Session()

try:
    # Crear las tablas en la base de datos si no existen
    Base.metadata.create_all(engine)
    
    # Cargar los datos de 'cardio_train.csv'
    cardio_data = pd.read_csv('../data/cardio_train.csv', encoding='latin1', delimiter=';')
    
    for index, row in cardio_data.iterrows():
        record = CardioTrain(
            age=int(row['age']),
            gender=int(row['gender']),
            height=int(row['height']),
            weight=float(row['weight']),
            ap_hi=int(row['ap_hi']),
            ap_lo=int(row['ap_lo']),
            cholesterol=int(row['cholesterol']),
            gluc=int(row['gluc']),
            smoke=bool(row['smoke']),
            alco=bool(row['alco']),
            active=bool(row['active']),
            cardio=bool(row['cardio'])
        )
        session.add(record)
    
    # Cargar los datos de 'cause_of_deaths.csv'
    deaths_data = pd.read_csv('../data/cause_of_deaths.csv', encoding='latin1', delimiter=',')
    
    for index, row in deaths_data.iterrows():
        record = CauseOfDeaths(
            country=row['Country/Territory'],
            year=int(row['Year']),
            cause=row["Cardiovascular Diseases"],
            deaths=int(row["Neoplasms"])
        )
        session.add(record)
    
    # Confirmar los cambios en la base de datos
    session.commit()
    print("Data loaded successfully!")

except SQLAlchemyError as e:
    # Manejar errores de SQLAlchemy
    session.rollback()  # Deshacer cualquier cambio si ocurre un error
    print(f"Error during data load: {e}")

except Exception as e:
    # Manejar otros posibles errores
    session.rollback()
    print(f"An unexpected error occurred: {e}")

finally:
    # Cerrar la sesi√≥n
    session.close()


Connection URL: postgresql://postgres:ETL@localhost:5432/postgres
Connected successfully to database postgres!
Data loaded successfully!


## üìä Resumen Estad√≠stico


## üìà Visualizaci√≥n de Datos


## üîç Detecci√≥n de Valores At√≠picos y Datos Faltantes


## üîó An√°lisis de Correlaciones