**Consideraciones**

A continuación se destacan algunas consideraciones durante el desarrollo del presente TP.

- El lenguaje de programación utilizado es **python** y se utiliza dentro de la aplicación **Jupyter Notebook** para conjugar la potencia del código de programación y texto con formato. El resultado es un documento o notebook con el desarrollo del TP.
- Las **Jupyter Notebooks** se estructuran en celdas que pueden ser del tipo **código** (python) o **texto con formato**.
- Markdown, HTML y LaTeX son los lenguajes de marcado utilizados indistintamente dentro del notebook para crear un documento de texto con formato y estilos.
- Los valores expresados en la versión PDF de este trabajo pueden variar levemente al ejecutar la jupyter notebook en una instancia posterior. Esto se debe a que funciones como `random.randint()` de la librería random devuelve valores aleatorios diferentes en cada ejecución.
- La generación del pdf se hace con la herramienta `nbconvert` de la biblioteca jupyter.
  - jupyter nbconvert --to pdf --allow-chromium-download  00-TP-python.ipynb
  - conda install -y -c conda-forge nbconvert




# Advanced Regression Analysis with Python - Notebook 1
Esta notebook contiene herramientas y funciones para realizar un análisis exhaustivo en regresión avanzada. Está organizada en secciones para facilitar su uso y permite ejecutar funciones específicas según los parámetros definidos.

## Estructura de la Notebook

1. **Importación de Librerías**: Cargamos todas las librerías necesarias para el análisis.
2. **Parametrización**: Definimos los parámetros específicos de cada ejercicio o actividad.
3. **Definición de Funciones**: Contiene funciones reutilizables para los análisis y visualizaciones.
4. **Ejecución de Ejercicios**: Ejecutamos los ejercicios y análisis según los parámetros definidos previamente.

Cada sección está diseñada para facilitar la reutilización y el análisis efectivo de los datos.

## Importación de Librerías

En esta sección, importamos todas las librerías necesarias para realizar el análisis de regresión, visualización y estadísticas. Esto incluye pandas, numpy, matplotlib, scipy, statsmodels, entre otras.

In [11]:
# Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf

# Configuración del estilo en Seaborn
sns.set_style("darkgrid")

## Parametrización

Aquí definimos parámetros específicos para cada ejercicio o actividad. Puedes usar esta sección para activar o desactivar funciones y definir configuraciones específicas. Esta sección permite seleccionar los ejercicios que deseas ejecutar en esta sesión.

In [15]:
# Parametrización: Diccionarios para controlar qué funciones o ejercicios se ejecutarán
parametros = {
    "ejecutar_analisis_correlacion": True,
    "ejecutar_graficos_dispersión": True,
    "ejecutar_regresion_lineal": True,
    "ejecutar_anova": False,  # Cambia a True si deseas ejecutar el análisis ANOVA
    "nivel_significancia": 0.05
}

# Configuración adicional
ruta_datos = "./data/IMCinfantil.xlsx"  # Ruta al archivo de datos

# Configuración de lectura para diferentes formatos y configuraciones
config_lectura = {
    "sep": ",",          # Separador de columnas (para CSV)
    "decimal": ".",      # Separador decimal
    "thousands": None    # Separador de miles (si es necesario)
}



## Definición de Funciones

Esta sección contiene funciones reutilizables para realizar los análisis y visualizaciones de la notebook. Incluye funciones para el análisis de correlación, gráficos de dispersión, regresión, y análisis ANOVA.

In [16]:
# Función para cargar datos
# Función para cargar datos
def cargar_datos(ruta, config):
    if ruta.endswith('.csv'):
        # Leer archivo CSV con configuraciones de separador y decimal
        df = pd.read_csv(ruta, sep=config["sep"], decimal=config["decimal"], thousands=config["thousands"])
    elif ruta.endswith('.xlsx'):
        # Leer archivo Excel (sin necesidad de separadores)
        df = pd.read_excel(ruta)
    else:
        raise ValueError("Formato de archivo no soportado. Utiliza archivos .csv o .xlsx.")
    return df

# Función para análisis de correlación
def analisis_correlacion(df, columnas, alpha=0.05):
    correlacion = df[columnas].corr()
    print("Matriz de correlación:")
    print(correlacion)
    for col1 in columnas:
        for col2 in columnas:
            if col1 != col2:
                coef, p_value = stats.pearsonr(df[col1], df[col2])
                print(f"\nCorrelación entre {col1} y {col2}: r = {coef:.2f}, p-valor = {p_value:.3f}")
                if p_value < alpha:
                    print(" -> La correlación es estadísticamente significativa.")
                else:
                    print(" -> La correlación NO es estadísticamente significativa.")

# Función para crear gráficos de dispersión
def graficos_dispersión(df, x_col, y_col):
    plt.figure(figsize=(8, 6))
    sns.scatterplot(data=df, x=x_col, y=y_col)
    plt.xlabel(f"Peso Vivo ({x_col})")
    plt.ylabel(f"Espesor Grasa Dorsal ({y_col})")
    plt.title(f"Relación entre {x_col} y {y_col}")
    plt.show()

# Función para realizar regresión lineal
def regresion_lineal(df, x_col, y_col):
    X = sm.add_constant(df[x_col])  # Agregar constante para el intercepto
    model = sm.OLS(df[y_col], X).fit()
    print(model.summary())
    return model

# Función para realizar ANOVA
def anova_regresion(df, formula):
    modelo = smf.ols(formula=formula, data=df).fit()
    anova_table = sm.stats.anova_lm(modelo, typ=2)
    print("Tabla ANOVA:")
    print(anova_table)
    return anova_table

## Ejecución de Ejercicios

En esta sección, ejecutamos los análisis y visualizaciones de acuerdo con los parámetros definidos. Las funciones previamente definidas se ejecutan en función de la parametrización elegida.

In [18]:
# Cargar los datos
df = cargar_datos(ruta_datos, config_lectura)

# Ejecución de análisis de correlación
if parametros["ejecutar_analisis_correlacion"] and df is not None:
    analisis_correlacion(df, columnas=["PV", "EGD"], alpha=parametros["nivel_significancia"])

# Ejecución de gráficos de dispersión
if parametros["ejecutar_graficos_dispersión"] and df is not None:
    graficos_dispersión(df, x_col="PV", y_col="EGD")

# Ejecución de regresión lineal
if parametros["ejecutar_regresion_lineal"] and df is not None:
    modelo = regresion_lineal(df, x_col="PV", y_col="EGD")

# Ejecución de ANOVA
if parametros["ejecutar_anova"] and df is not None:
    anova_regresion(df, formula="EGD ~ PV")

FileNotFoundError: [Errno 2] No such file or directory: './data/IMCinfantil.xlsx'