# MÉTODOS Y TÉCNICAS EN NEUROCIENCIAS. 


In [None]:
# Se importan las librerías con las que se trabajará en todo el TP. 
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import scipy
import statsmodels.api as sm
import stats
from scipy import stats
import statsmodels.api as sm
from IPython.display import display, Markdown
import warnings
warnings.filterwarnings('ignore')

## Unidad 1. 
## Tema Clase 1:
**Estadística Descriptiva**

Presentación de la información. Frecuencias. Frecuencia absoluta y frecuencia relativa. Gráficos de barras. Medidas descriptivas centrales y de dispersión. Gráficos de distribución de frecuencias y cajas.


**Actividad práctica:**

El objetivo de la actividad práctica es realizar un análisis exploratorio de una base de datos con el fin de describir tendencias centrales y dispersión de las variables, en el espacio uni y bivariado.

**Planteamiento del problema**

Un grupo de investigadores realizó un estudio con el fin de evaluar si existen diferencias en características estructurales del cerebro entre personas con esquizofrenia y desórdenes bipolares, en relación a los sujetos sanos. Asimismo, estudiaron los niveles de vitamina D en estos sujetos, ya que trabajos previos habían asociado los niveles de esta vitamina en personas con esquizofrenia y desórdenes depresivos con cambios estructurales, tales como una reducción de volumen cerebral. 

La muestra obtenida incluyó 83 pacientes y 101 sujetos sanos como grupo control. Se midió el nivel de vitamina D y se obtuvieron imágenes de resonancia magnética estructural (T1) de cada sujeto. A partir de las imágenes se calcularon el volumen de sustancia gris y blanca, el volumen cerebral total, el volumen de sustancia gris periférica y el volumen ventricular. Los datos fueron volcados a una base de datos anonimizada. 

La base de datos del estudio se encuentra en el archivo “Base_Brain_Vol.xlsx” y será usada para resolver el ejercicio. Las variables incluidas son:
 
**Códigos de las variables en la base de datos:**	

* **Tratamiento (2 niveles):** Control, Paciente		
* **Diagnóstico (3 niveles):** Control, Esquizofrenia, Desorden_bipolar 
* **Genero (2 niveles):** Masculino M, Femenino F
* **GMV:** Volumen de la sustancia gris
* **WMV:** Volumen de la sustancia blanca
* **WholeBrain:** Volumen del cerebro
* **GM_Peripheral:** Volumen periférico de sustancia gris 
* **VentricularCSF:** Líquido cefalorraquídeo ventricular 
* **Vitamin_D_nmog:** Vitamina D suministrada

**Ejercicio**

Resolver las siguientes consignas 

**1)** Para cada una de las variables de la base, identificar el tipo de dato que describen.

**2)** Describir la información contenida en cada variable, aplicando gráficos adecuados a cada tipo de dato. 

**3)** Para las variables que sea pertinente, obtenga las medidas de tendencia central y dispersión para toda la muestra y para cada grupo Tratamiento.
 



### **Respuesta 1):**

**Tratamiento:** Nominal

**Diagnostico:** Nominal

**Genero:** Nominal

**GMV:** Contínua

**WMV:** Contínua

**WholeBrain:** Contínua

**GM_Peripheral:** Contínua

**VentricularCSV:** Contínua

**Vitamin_D_nmog:** Discreta


### **Respuesta 2):**

In [None]:
# Importo el dataset 
url = 'https://raw.githubusercontent.com/xlisouski/Neurociencia/main/Base_Brain_Vol.xlsx'
df = pd.read_excel(url)
print('Vista Preliminar del Set de Datos:')
df.head()

In [None]:
# Descripción general de variables numéricas
df.describe().round()

#### Tratamiento 
Al ser una variable nominal con ciertas categorías posibles, se sugiere visualizarla a través de un gráfico de barras. 

In [None]:
# Valores distintos:
print('Valores Posibles: ') 
print(df['Tratamiento'].unique())

In [None]:
ax = sns.countplot(data = df,x = 'Tratamiento')

for p in ax.patches:
    ax.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', xytext=(0, 5), textcoords='offset points')
plt.title('Distribución según Tratamiento')
plt.xlabel('Tratamiento')
plt.ylabel('Cantidad de Pacientes')
plt.show()

#### Diagnóstico 
Al ser una variable nominal con ciertas categorías posibles, se sugiere visualizarla a través de un gráfico de rueda. 

In [None]:
# Valores distintos:
print('Valores Posibles: ') 
print(df['Diagnostico'].unique())

In [None]:
plt.figure(figsize=(8, 8))
category_counts = df['Diagnostico'].value_counts()
plt.pie(category_counts, labels=category_counts.index, autopct='%1.1f%%', startangle=140, 
        wedgeprops=dict(width=0.5))
plt.title('Distribución de Diagnóstico')
plt.axis('equal')
plt.show()

#### Genero 
Al ser una variable nominal con ciertas categorías posibles, se sugiere visualizarla a través de un gráfico de barras. 

In [None]:
# Valores distintos:
print('Valores Posibles: ') 
print(df['Genero'].unique())

In [None]:
ax = sns.countplot(data = df,
                   x = 'Genero',
                   color = '#74D3A2')

for p in ax.patches:
    ax.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', xytext=(0, 5), textcoords='offset points')
plt.title('Distribución según Genero')
plt.xlabel('Genero')
plt.ylabel('Cantidad de Pacientes')
plt.show()

### GMV
Al ser una variable contínua, se propone un histograma marcando sus medidas de tendencia central y de posición. 

In [None]:
plt.figure()
sns.histplot(data = df,
             x = 'GMV',
             bins = 30,            
             alpha = 0.2,
             edgecolor = '#769ECF')

plt.axvline(x = df['GMV'].mean(), 
            color = 'red', 
            linestyle = '-', 
            label = 'Promedio',
            linewidth = 3)

plt.axvline(x = df['GMV'].median(), 
            color = '#001D88', 
            linestyle = '-', 
            label = 'Mediana',
            linewidth = 3)

plt.axvline(x = df['GMV'].quantile(0.25), 
            color = 'black', 
            linestyle = '--', 
            label = 'Primer Cuartil',
            linewidth = 2)

plt.axvline(x = df['GMV'].quantile(0.75), 
            color = 'black', 
            linestyle = '--', 
            label = 'Tercer Cuartil',
            linewidth = 2)

plt.title('Distribución según GMV')
plt.xlabel('GMV')
plt.ylabel('Cantidad de Pacientes')
plt.legend()
plt.show()

### WMV
Al ser una variable contínua, se propone un boxplot. 

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='WMV', data=df, palette='Set2')
plt.title('Distribución de WMV')
plt.show()

### WholeBrain
Al ser una variable contínua, se propone un histograma marcando sus medidas de tendencia central y de posición, agregamndo la curva de tendencia. 

In [None]:
variable_target = df['WholeBrain']
media = variable_target.mean()
mediana = variable_target.median()
primer_cuartil = variable_target.quantile(0.25)
tercer_cuartil = variable_target.quantile(0.75)

# Luego grafico
plt.figure()
# Histograma
sns.histplot(data = df,
             x = 'WholeBrain',
             bins = 30,            
             alpha = 0.25,
             kde = True)
# Agrego linea de promedio 
plt.axvline(x = media, 
            color = 'red', 
            linestyle = '-', 
            label = 'Promedio',
            linewidth = 3)
# Agrego linea de mediana 
plt.axvline(x = mediana, 
            color = '#11B613', 
            linestyle = '-', 
            label = 'Mediana',
            linewidth = 3)
# Agrego linea de primer cuartil 
plt.axvline(x = primer_cuartil, 
            color = 'black', 
            linestyle = '--', 
            label = 'Primer Cuartil',
            linewidth = 2)
# Agrego linea de tercer cuartil 
plt.axvline(x = tercer_cuartil, 
            color = 'black', 
            linestyle = '--', 
            label = 'Tercer Cuartil',
            linewidth = 2)

plt.legend()
plt.ylabel('Cantidad de Pacientes')
plt.title('Distribución de WholeBrain')

### GM_Peripheral
Al ser una variable contínua, se propone un histograma marcando sus medidas de tendencia central y de posición, agregamndo la curva de tendencia. 

In [None]:
variable_target = df['GM_Peripheral']
media = variable_target.mean()
mediana = variable_target.median()
primer_cuartil = variable_target.quantile(0.25)
tercer_cuartil = variable_target.quantile(0.75)

# Luego grafico
plt.figure()
# Histograma
sns.histplot(data = df,
             x = 'GM_Peripheral',
             bins = 30,            
             alpha = 0.25,
             kde = True,
             color = '#7941D4')
# Agrego linea de promedio 
plt.axvline(x = media, 
            color = 'red', 
            linestyle = '-', 
            label = 'Promedio',
            linewidth = 3)
# Agrego linea de mediana 
plt.axvline(x = mediana, 
            color = '#11B613', 
            linestyle = '-', 
            label = 'Mediana',
            linewidth = 3)
# Agrego linea de primer cuartil 
plt.axvline(x = primer_cuartil, 
            color = 'black', 
            linestyle = '--', 
            label = 'Primer Cuartil',
            linewidth = 2)
# Agrego linea de tercer cuartil 
plt.axvline(x = tercer_cuartil, 
            color = 'black', 
            linestyle = '--', 
            label = 'Tercer Cuartil',
            linewidth = 2)

plt.legend()
plt.xlabel('GM_Peripheral')
plt.ylabel('Cantidad de Pacientes')
plt.title('Distribución de GM_Peripheral')

### VentricularCSF
Al ser una variable contínua, se propone un boxplot. 

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='VentricularCSF', data=df, color = '#ACD441')
plt.title('Distribución de VentricularCSF')
plt.show()

### Vitamin_D_nmog
Al ser una variable discreta, se propone un histograma marcando sus medidas de tendencia central y de posición, agregando la curva de tendencia. 

In [None]:
variable_target = df['Vitamin_D_nmog']
media = variable_target.mean()
mediana = variable_target.median()
primer_cuartil = variable_target.quantile(0.25)
tercer_cuartil = variable_target.quantile(0.75)

# Luego grafico
plt.figure()
# Histograma
sns.histplot(data = df,
             x = 'Vitamin_D_nmog',
             bins = 30,            
             alpha = 0.25,
             kde = True,
             color = '#D4419A')
# Agrego linea de promedio 
plt.axvline(x = media, 
            color = 'red', 
            linestyle = '-', 
            label = 'Promedio',
            linewidth = 3)
# Agrego linea de mediana 
plt.axvline(x = mediana, 
            color = '#11B613', 
            linestyle = '-', 
            label = 'Mediana',
            linewidth = 3)
# Agrego linea de primer cuartil 
plt.axvline(x = primer_cuartil, 
            color = 'black', 
            linestyle = '--', 
            label = 'Primer Cuartil',
            linewidth = 2)
# Agrego linea de tercer cuartil 
plt.axvline(x = tercer_cuartil, 
            color = 'black', 
            linestyle = '--', 
            label = 'Tercer Cuartil',
            linewidth = 2)

plt.legend()
plt.xlabel('Vitamin_D_nmog')
plt.ylabel('Cantidad de Pacientes')
plt.title('Distribución de Vitamin_D_nmog')

### **Respuesta 3):**

In [None]:
def CalculaMetricas(variable):

    media = variable.mean()
    mediana = variable.median()
    media_recortada = scipy.stats.trim_mean(variable,0.1)
    varianza = variable.var()
    desvio = variable.std()
    primer_cuartil = variable.quantile(0.25)
    tercer_cuartil = variable.quantile(0.75)
    percentil_1 = variable.quantile(0.01)
    percentil_99 = variable.quantile(0.99)
    error_estandar = scipy.stats.sem(variable) 
    cv = scipy.stats.variation(variable)
    asimetria = scipy.stats.skew(variable) 
    curtosis = scipy.stats.kurtosis(variable)    
    
    resultado = pd.DataFrame({        
        
        'Q1': [round(primer_cuartil, 0)], 
        'Mediana': [round(mediana, 0)],
        'Media': [round(media, 2)],       
        'Q3': [round(tercer_cuartil, 0)],
        'DesvEst': [round(desvio, 2)],
        'Rango_Int': [round(tercer_cuartil - primer_cuartil, 0)],
        'CV': [round(cv, 2)],        
        'Coef_Asime': [round(asimetria, 2)],
        'Coef_Curtosis': [round(curtosis, 2)]
    })

    return resultado

In [None]:
variables_num = ['GMV', 'WMV', 'WholeBrain', 'GM_Peripheral', 'VentricularCSF','Vitamin_D_nmog']

resumen_t = pd.DataFrame(columns=['Q1','Mediana', 'Media',   'Q3', 'DesvEst','Rango_Int','CV','Coef_Asime','Coef_Curtosis'])

display(Markdown(f"### Estadísticas Descriptivas de Variables Numéricas"))

for variable_num in variables_num:
    
    nueva_fila = CalculaMetricas(df[variable_num])
    
    resumen_t =  pd.concat([resumen_t, nueva_fila], axis=0, ignore_index=True)

resumen_t

In [None]:
variables_num = ['GMV', 'WMV', 'WholeBrain', 'GM_Peripheral', 'VentricularCSF','Vitamin_D_nmog']

display(Markdown(f"### **Estadísticas según tratamiento**"))
    
for variable_num in variables_num:

    agrupaciones = df.groupby(['Tratamiento']).agg(
        
        Q1 =(variable_num, lambda x: x.quantile(0.25)),
        Mediana = (variable_num, 'median'),
        Media = (variable_num, 'mean'),
        Q3=(variable_num, lambda x: x.quantile(0.75)),
        Desvio = (variable_num, 'std'),
        Rango_Int=(variable_num, lambda x: x.quantile(0.75) - x.quantile(0.25))
        )
    agrupaciones['CV'] = agrupaciones['Desvio'] / agrupaciones['Media']
    display(Markdown(f"### Estadísticas para la variable: **{variable_num}**"))
    display(agrupaciones.round(2))

## Tema Clase 2:
**Estadística Inferencial**

Concepto de prueba estadística. Hipótesis nula y alternativa. Error tipo I y error tipo II. Nivel de significación. Estadístico de la prueba. Valor P. Pruebas estadísticas inferenciales. Prueba t-Student para una y dos medias.


**Actividad práctica:**

El objetivo de la actividad es realizar pruebas de comparación de medias, evaluar los supuestos de las mismas e interpretar los resultados obtenidos.


**Ejercicio**

Utilizando el mismo ejemplo de la Clase 1, resolver las siguientes consignas 

**1)** Con respecto a cada una de las variables que describen propiedades volumétricas del cerebro ¿considera que los grupos presentan diferencias observables de acuerdo al Tratamiento? Obtenga gráficos que sustenten su respuesta.

**2)** Las variables que describen propiedades volumétricas del cerebro, ¿presentan diferencias entre sexos en los sujetos sanos o Control? ¿Se observa lo mismo en los pacientes? Elija una herramienta numérica y una grafica para apoyar su respuesta.

**3)** Los datos de este estudio, ¿apoyan la hipótesis de que existen diferencias significativas en la composición de los tejidos cerebrales entre pacientes con desórdenes psiquiátricos y los sujetos sanos? ¿Que prueba estadística usaría para testear estas diferencias?

En las respuestas incluya los gráficos y los resultados de los análisis estadísticos realizados. Se recomienda resumir la información en tablas para facilitar la presentación de los resultados.


### **Respuesta 1)**

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='GMV', data=df, palette='Set2', hue = 'Tratamiento')
plt.title('Distribución de GMV')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='WMV', data=df, palette='Set2', hue = 'Tratamiento')
plt.title('Distribución de WMV')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='WholeBrain', data=df, palette='Set2', hue = 'Tratamiento')
plt.title('Distribución de WholeBrain')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='GM_Peripheral', data=df, palette='Set2', hue = 'Tratamiento')
plt.title('Distribución de GM_Peripheral')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='VentricularCSF', data=df, palette='Set2', hue = 'Tratamiento')
plt.title('Distribución de VentricularCSF')
plt.show()

### **Respuesta 2)**

### Gráficos
Se utilizan boxplots para mostrar las diferencias de cada variable que describe propiedades volumétricas del cerebro respecto del tratamiento.

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='GMV', x='Tratamiento', data=df, palette='Set2', hue = 'Genero')
plt.title('Distribución de GMV')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='WMV', x='Tratamiento', data=df, palette='Set2', hue = 'Genero')
plt.title('Distribución de WMV')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='WholeBrain', x='Tratamiento', data=df, palette='Set2', hue = 'Genero')
plt.title('Distribución de WholeBrain')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='GM_Peripheral', x='Tratamiento', data=df, palette='Set2', hue = 'Genero')
plt.title('Distribución de GM_Peripheral')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(y='VentricularCSF', x='Tratamiento', data=df, palette='Set2', hue = 'Genero')
plt.title('Distribución de VentricularCSF')
plt.show()

### Soporte Numérico
Se calculará la el primer cuartil, la media, la mediana, el tercer cuartil, el desvío estándar y el coeficiente de variación para cada sub-grupo de análisis, con el objetivo de mostrar las diferencias de cada variable que describe propiedades volumétricas del cerebro respecto del tratamiento.

In [None]:
variables_num = ['GMV', 'WMV', 'WholeBrain', 'GM_Peripheral', 'VentricularCSF','Vitamin_D_nmog']

for variable_num in variables_num:

    agrupaciones = df.groupby(['Tratamiento','Genero']).agg(
        
        Q1 =(variable_num, lambda x: x.quantile(0.25)),
        Mediana = (variable_num, 'median'),
        Promedio = (variable_num, 'mean'),
        Q3=(variable_num, lambda x: x.quantile(0.75)),
        Desvio = (variable_num, 'std')
        )
    agrupaciones['CV'] = agrupaciones['Desvio'] / agrupaciones['Promedio']
    display(Markdown(f"### Estadísticas para la variable: **{variable_num}**"))
    display(agrupaciones.round(2))

### **Respuesta 3)**
Se utilizarán pruebas de diferencias de medias T para comparar si el valor medio de cada variable que compone los tejidos cerebrales cuenta con diferencias en los distintos grupos tratados. 

In [None]:
def prueba_t(col_cat, col_num, alpha, data_frame):

    categorias = data_frame[col_cat].unique()
    
    muestra1 = data_frame.loc[data_frame[col_cat] == categorias[0],col_num].values
    muestra2 = data_frame.loc[data_frame[col_cat] == categorias[1],col_num].values

    # Realiza la prueba t para muestras independientes
    t_statistic, p_value = stats.ttest_ind(muestra1, muestra2)

    # Interpreta el valor p
    alpha = alpha
    if p_value < alpha:
        rta = "Rechazamos H0"
        interp = "Hay diferencia significativa entre medias."
    else:
        rta = "No rechazamos H0"
        interp = "No hay diferencia significativa entre medias."
    return p_value, t_statistic, rta, interp

In [None]:
variables_num = ['GMV', 'WMV', 'WholeBrain', 'GM_Peripheral', 'VentricularCSF','Vitamin_D_nmog']
resumen_t = pd.DataFrame(columns=['Variable','P_Valor','Estadistico','Decision','Interpretacion'])

display(Markdown(f"### Pruebas T para validar diferencias de medias según Diagnóstico"))

for variable_num in variables_num:

    t_prueba = prueba_t('Diagnostico', variable_num, 0.05, df)
    
    nueva_fila = pd.DataFrame({
    'Variable': [variable_num],
    'P_Valor': [round(t_prueba[0],4)],
    'Estadistico': [round(t_prueba[1],2)],
    'Decision': [t_prueba[2]],
    'Interpretacion': [t_prueba[3]]
    })    
    
    resumen_t =  pd.concat([resumen_t, nueva_fila], axis=0, ignore_index=True)

resumen_t

In [None]:
variables_num = ['GMV', 'WMV', 'WholeBrain', 'GM_Peripheral', 'VentricularCSF','Vitamin_D_nmog']
resumen_t = pd.DataFrame(columns=['Variable','P_Valor','Estadistico','Decision','Interpretacion'])

display(Markdown(f"### Pruebas T para validar diferencias de medias según Tratamiento"))

for variable_num in variables_num:

    t_prueba = prueba_t('Tratamiento', variable_num, 0.05, df)
    
    nueva_fila = pd.DataFrame({
    'Variable': [variable_num],
    'P_Valor': [round(t_prueba[0],4)],
    'Estadistico': [round(t_prueba[1],2)],
    'Decision': [t_prueba[2]],
    'Interpretacion': [t_prueba[3]]
    })    
    
    resumen_t =  pd.concat([resumen_t, nueva_fila], axis=0, ignore_index=True)

resumen_t

## Tema Clase 3:
## Estadística Inferencial
**Pruebas de dependencia y diseños experimentales I. Prueba ANOVA**

**Actividad práctica:**
El objetivo de la actividad es adquirir los elementos básicos para describir y analizar la relación entre dos variables cuantitativas, una discreta y la otra continua.

**Ejercicio**
Analice la base de datos provista para resolver las siguientes preguntas:  

**1)** Grafique las diferencias de medias de cada variable cuantitativa entre los grupos incluidos en la variable Diagnósticos. Analice también las diferencias de medidas entre grupos que combinen la variable Género y Diagnóstico (estos grupos deben ser creados para el ejercicio), ¿qué diferencias puede identificar?

**2)** Los datos de este estudio, ¿apoyan la hipótesis de que existen diferencias en la composición de los tejidos cerebrales entre controles y pacientes con diferentes diagnósticos?

En las respuestas incluya los gráficos y los resultados de los análisis estadísticos realizados. Se recomienda resumir la información en tablas para facilitar la presentación de los resultados.


### **Respuesta 1)**

In [None]:
variables_num = ['GMV', 'WMV', 'WholeBrain', 'GM_Peripheral', 'VentricularCSF']

for variable_num in variables_num:
    plt.figure()
    sns.barplot(data = df,
                x = 'Diagnostico',
                y = variable_num)
    plt.title('Promedio de '+variable_num+ ' según Diagnóstico')
    plt.xlabel('Promedio de '+variable_num)
    plt.show()

In [None]:
variables_num = ['GMV', 'WMV', 'WholeBrain', 'GM_Peripheral', 'VentricularCSF']

for variable_num in variables_num:
    plt.figure()
    sns.barplot(data = df,
                x = 'Diagnostico',
                y = variable_num,
                hue = 'Genero')
    plt.title('Promedios según Diagnóstico y Género')
    plt.xlabel('Promedio de '+variable_num)
    plt.show()

### **Respuesta 2)**

In [None]:
variables_num = ['GMV', 'WMV', 'WholeBrain', 'GM_Peripheral', 'VentricularCSF']
resumen_t = pd.DataFrame(columns=['Variable','P_Valor','Estadistico','Decision','Interpretacion'])

display(Markdown(f"### Pruebas ANOVA para validar diferencias de medias según Diagnóstico"))

for variable_num in variables_num:

    grouped = df.groupby(['Diagnostico'])[variable_num]
    group_data = [group.values for name, group in grouped]
    f_statistic, p_value = stats.f_oneway(*group_data)
    
    alpha = 0.05
    if p_value < alpha:
        rta = "Rechazamos H0"
        interp = "Hay diferencia significativa entre medias."
    else:
        rta = "No rechazamos H0"
        interp = "No hay diferencia significativa entre medias."
    
    nueva_fila = pd.DataFrame({
    'Variable': [variable_num],
    'P_Valor': [round(p_value,4)],
    'Estadistico': [round(f_statistic,2)],
    'Decision': [rta],
    'Interpretacion': [interp]
    })    
    
    resumen_t =  pd.concat([resumen_t, nueva_fila], axis=0, ignore_index=True)

resumen_t

In [None]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd
tukey = pairwise_tukeyhsd(endog=df['VentricularCSF'], groups=df['Diagnostico'], alpha=0.05)
print(tukey)

## Tema Clase 4
## Estadística Inferencial
**Pruebas de dependencia y diseños experimentales II. Chi-cuadrado. Regresión**

**Actividad práctica:**
El objetivo de la actividad es adquirir los elementos básicos para describir y analizar la relación entre dos variables cuantitativas continuas o discretas.

**1)** Las variables que describen distintas características estructurales del cerebro, ¿están asociadas o varían de forma independiente? Para responder esta pregunta utilice tanto métodos descriptivos gráficos como análisis que permitan estimar la magnitud de asociación entre variables.

**2)** El volumen cerebral total, ¿es un buen predictor del contenido de materia gris, blanca y el volumen del liquido cerebroespinal? Justificar la respuesta a partir de los resultados obtenidos.

**3)** ¿Qué ecuación utilizaría para estimar el volumen de sustancia gris a partir del volumen cerebral total? En la ecuación incluya los valores específicos para el estudio usado en este trabajo práctico.

**4)** Existen diferencias entre sexos en relación a los diagnósticos de Esquizofrenia y Desorden bipolar?


### **Respuesta 1)**

In [None]:
matriz_correlacion = df[variables_num].corr(method='pearson')
sns.heatmap(abs(matriz_correlacion),
                linewidths = 0.3,
                annot = True,
                cmap = 'Reds')
plt.yticks(rotation = 0)
plt.xticks(rotation = 90)
plt.title('Matriz de Correlación de Variables Numéricas')
plt.show()

In [None]:
# Crear el Pairplot 
display(Markdown(f"### Relación entre Variables Numéricas"))
sns.pairplot(df[variables_num])
plt.show()

### **Respuesta 2)**

In [None]:
variables_num = ['GMV', 'WMV', 'GM_Peripheral', 'VentricularCSF']

for variable in variables_num:

    display(Markdown(f"### Predicción de Y: **{variable}** en función de X: **WholeBrain**"))

    X = df[['WholeBrain']]
    Y = df[variable]

    # Agregar una constante (intercepto) al modelo
    X = sm.add_constant(X)

    # Ajustar el modelo
    model = sm.OLS(Y, X).fit()

    # Graficamente:
    df['y_estimado'] = model.predict(X)

    g1 = plt.figure()
    sns.scatterplot(data = df,
                    x = 'WholeBrain',
                    y = variable,                
                    label = 'Real', 
                    color = '#34EB63',
                    alpha = 0.75)
    sns.lineplot(data = df, 
                    x = 'WholeBrain', 
                    y = 'y_estimado', 
                    label = 'Predicción', 
                    color = 'black')
    plt.xlabel('WholeBrain')
    plt.ylabel(variable)
    plt.title('Datos Reales vs Estimación - R2: '+ str(round(model.rsquared,2)))
    plt.show()

    # Imprimir el resumen del modelo
    print(model.summary())


### **Respuesta 3)**

In [None]:
variable = 'GMV'

display(Markdown(f"### Predicción de Y: **{variable}** en función de X: **WholeBrain**"))

X = df[['WholeBrain']]
Y = df[variable]

X = sm.add_constant(X)

model = sm.OLS(Y, X).fit()

ecuacion = ' Y =  ' + str(round(model.params[0],2)) + ' + ' + str(round(model.params[1],2)) + ' * X'

display(Markdown(f"### {ecuacion}"))

### **Respuesta 4)**

In [None]:
tabla_contingencia = pd.crosstab(df['Genero'], df['Diagnostico'])

# Realizar el test chi-cuadrado
chi2_stat, p_value, dof, expected = stats.chi2_contingency(tabla_contingencia)
tabla_expected = pd.DataFrame(expected, index=tabla_contingencia.index, columns=tabla_contingencia.columns)

# Imprimir los resultados
display(Markdown(f'**Estadístico Chi-cuadrado:** {round(chi2_stat,4)}'))
display(Markdown(f'**P - Valor:** {round(p_value,4)}'))
display(Markdown(f'**Degrees of Freedom (dof):** {dof}'))
display(Markdown(f'''**Interpretación:** 
Dado que el valor p es mayor que el nivel de significancia de 0.05, no existe suficiente evidencia para rechazar la hipótesis nula.
No hay evidencia estadísticamente significativa para afirmar que existe una asociación entre el sexo y el diagnóstico.'''))

display(Markdown(f"### Frecuencias Reales:"))
display(pd.DataFrame(tabla_contingencia))

display(Markdown(f"### Frecuencias Esperadas:"))
display(pd.DataFrame(round(tabla_expected,0)))