<a href="https://colab.research.google.com/github/paulotolosa/prueba_II_coderhouse/blob/main/Proyecto_ParteIII_Tolosa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

	DESCRIPCION DEL PROYECTO
Este proyecto se centra en el análisis de un conjunto de datos que contiene información relevante sobre pacientes, incluyendo variables como el número de embarazos, niveles de glucosa en sangre, presión arterial, grosor de la piel, niveles de insulina, índice de masa corporal (BMI), función de antecedentes de diabetes, edad y el resultado de la prueba de diabetes. La motivación detrás de este análisis radica en la importancia de comprender los factores que contribuyen al desarrollo de la diabetes y cómo estas variables pueden influir en el resultado de la prueba de diabetes.
Este conocimiento puede ser invaluable para la prevención, diagnóstico y tratamiento de la enfermedad.
La audiencia que podría beneficiarse de este análisis incluye profesionales de la salud, investigadores en el campo de la diabetes, así como organizaciones y políticas de salud pública orientadas a la prevención y tratamiento de la enfermedad.
Además, los resultados de este análisis podrían ser útiles para el diseño de intervenciones personalizadas destinados a reducir la incidencia y el impacto de la diabetes en la población.


	Preguntas:

•	¿Cuál es la distribución de la variable de resultado (Outcome) en el conjunto de datos?
•	¿Cuál es la relación entre el número de embarazos (Pregnancies) y el riesgo de diabetes?
•	¿Existe una asociación entre los niveles de glucosa en sangre (Glucose) y la presión arterial (BloodPressure)?
•	¿Cómo varía el grosor de la piel (SkinThickness) en función del índice de masa corporal (BMI)?
•	¿Cuál es la relación entre los niveles de insulina (Insulin) y la función de pedigree de diabetes (DiabetesPedigreeFunction)?
•	¿Hay una relación entre la edad (Age) y el riesgo de diabetes?
•	¿Cuáles son las características más importantes que contribuyen a predecir el resultado de la prueba de diabetes?




	Hipótesis:

•	Hipótesis nula: No hay diferencia significativa en los niveles de glucosa en sangre entre pacientes con resultado positivo y negativo en la prueba de diabetes.

•	Hipótesis alternativa: Los pacientes con un mayor número de embarazos tienen un mayor riesgo de resultado positivo en la prueba de diabetes.

•	Hipótesis nula: No hay asociación entre el índice de masa corporal (BMI) y el grosor de la piel (SkinThickness).

•	Hipótesis alternativa: Los pacientes con un mayor índice de masa corporal (BMI) tienden a tener un grosor de piel más alto.

•	Hipótesis nula: No hay diferencia significativa en los niveles de insulina entre pacientes con resultado positivo y negativo en la prueba de diabetes.

•	Hipótesis alternativa: La función de pedigree de diabetes (DiabetesPedigreeFunction) está positivamente correlacionada con la edad (Age).

•	Hipótesis nula: No hay diferencia significativa en las características entre los grupos de pacientes con resultado positivo y negativo en la prueba de diabetes.




	ESTRUCTURA DEL PROYECTO

Exploración de Datos
1.	Preprocesamiento de Datos:

•	Análisis preliminar de la calidad de los datos (valores faltantes, valores atípicos, etc.)

•	Limpieza de datos: manejo de valores faltantes, detección y corrección de errores, eliminación de duplicados, etc.

•	Transformación de datos: normalización, codificación de variables categóricas, etc.

2.	Análisis Exploratorio de Datos (EDA):

•	Visualización de datos: gráficos de distribución, diagramas de dispersión, histogramas, etc., para explorar la relación entre las variables.

•	Análisis estadístico descriptivo: resumen estadístico de las variables, identificación de tendencias y patrones.

3.	Modelado Predictivo:

•	División del conjunto de datos en conjuntos de entrenamiento y prueba.
•	Selección y entrenamiento de modelos predictivos (por ejemplo, regresión logística, árboles de decisión, etc.).
•	Evaluación del rendimiento del modelo utilizando métricas como precisión, sensibilidad, especificidad, etc.

4.	Interpretación de Resultados:

•	Interpretación de los hallazgos del análisis exploratorio y del modelado predictivo.

•	Discusión sobre la relevancia clínica de los resultados y posibles implicaciones para la práctica


In [2]:
import pandas as pd

# URL directa al archivo CSV en GitHub
url = 'https://raw.githubusercontent.com/paulotolosa/prueba_II_coderhouse/main/diabetes.csv'

# Importar el archivo CSV en un DataFrame de pandas
df = pd.read_csv(url)

# Ver las primeras filas del DataFrame para asegurarse de que se importó correctamente
print(df.head())


   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            2      138             62             35        0  33.6   
1            0       84             82             31      125  38.2   
2            0      145              0              0        0  44.2   
3            0      135             68             42      250  42.3   
4            1      139             62             41      480  40.7   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.127   47        1  
1                     0.233   23        0  
2                     0.630   31        1  
3                     0.365   24        1  
4                     0.536   21        0  


In [6]:
# Calcular la matriz de correlación de Pearson
correlation_matrix = df.corr()

# Mostrar la matriz de correlación
print(correlation_matrix)


                          Pregnancies   Glucose  BloodPressure  SkinThickness  \
Pregnancies                  1.000000  0.120405       0.149672      -0.063375   
Glucose                      0.120405  1.000000       0.138044       0.062368   
BloodPressure                0.149672  0.138044       1.000000       0.198800   
SkinThickness               -0.063375  0.062368       0.198800       1.000000   
Insulin                     -0.076600  0.320371       0.087384       0.448859   
BMI                          0.019475  0.226864       0.281545       0.393760   
DiabetesPedigreeFunction    -0.025453  0.123243       0.051331       0.178299   
Age                          0.539457  0.254496       0.238375      -0.111034   
Outcome                      0.224437  0.458421       0.075958       0.076040   

                           Insulin       BMI  DiabetesPedigreeFunction  \
Pregnancies              -0.076600  0.019475                 -0.025453   
Glucose                   0.320371  0.226

Calcular la Correlación de Pearson
Primero, calcula la matriz de correlación de Pearson para entender las relaciones entre las variables en tu dataset. Esto te ayudará a identificar características altamente correlacionadas que podrías querer transformar o eliminar.

In [12]:

# Suponiendo que 'df' es tu dataframe
correlation_matrix = df.corr()
print(correlation_matrix)


                          Pregnancies   Glucose  BloodPressure  SkinThickness  \
Pregnancies                  1.000000  0.120405       0.149672      -0.063375   
Glucose                      0.120405  1.000000       0.138044       0.062368   
BloodPressure                0.149672  0.138044       1.000000       0.198800   
SkinThickness               -0.063375  0.062368       0.198800       1.000000   
Insulin                     -0.076600  0.320371       0.087384       0.448859   
BMI                          0.019475  0.226864       0.281545       0.393760   
DiabetesPedigreeFunction    -0.025453  0.123243       0.051331       0.178299   
Age                          0.539457  0.254496       0.238375      -0.111034   
Outcome                      0.224437  0.458421       0.075958       0.076040   

                           Insulin       BMI  DiabetesPedigreeFunction  \
Pregnancies              -0.076600  0.019475                 -0.025453   
Glucose                   0.320371  0.226

Normalizar los Datos
Antes de aplicar PCA, es importante normalizar tus datos, ya que PCA es sensible a las escalas de las variables.

In [13]:
from sklearn.preprocessing import StandardScaler

# Separar características (X) y la variable objetivo (y)
X = df.drop('Outcome', axis=1)
y = df['Outcome']

# Normalizar las características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


Aplicar PCA
Aplica PCA a los datos normalizados para reducir la dimensionalidad del dataset, mientras mantienes la mayor cantidad de varianza posible.

In [14]:
from sklearn.decomposition import PCA

# Crear y ajustar el modelo PCA
pca = PCA()
X_pca = pca.fit_transform(X_scaled)


Interpretar los Resultados de PCA
Revisa la varianza explicada por cada componente principal para decidir cuántos componentes mantener.

In [15]:
# Varianza explicada por cada componente principal
explained_variance_ratio = pca.explained_variance_ratio_
print("Varianza explicada por cada componente principal:")
print(explained_variance_ratio)


Varianza explicada por cada componente principal:
[0.26153728 0.21691186 0.12691175 0.11048587 0.09574077 0.08415208
 0.05415535 0.05010504]
