## Brian Roberto Gómez Martínez
# Análisis Descriptivo del Dataset de Diabetes

## 1. Carga de Datos

In [8]:
import pandas as pd

# Cargar los datos desde el archivo CSV
diabetes = pd.read_csv('diabetes.csv')

## 2. Verificación de Datos

En esta sección revisamos las dimensiones del dataset, las variables que contiene y sus tipos de datos.

In [9]:
# Verificar la cantidad de datos (filas, columnas)
print("Dimensiones del dataset (filas, columnas):")
diabetes.shape

Dimensiones del dataset (filas, columnas):


(768, 9)

In [10]:
# Ver las variables que contiene cada vector de datos
print("Nombres de las variables:")
diabetes.columns

Nombres de las variables:


Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

In [11]:
# Identificar el tipo de variables y si hay valores nulos
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


## 3. Análisis de Variables

Utilizamos describe() para obtener un resumen estadístico que nos muestra qué representa cada variable y en qué rangos se encuentran sus valores.

In [14]:
# Analizar rangos (mínimo y máximo) y otras estadísticas clave
diabetes.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


**Descripción y Rango de las Variables:**

| Variable                 | Descripción                                        | Rango (Mín - Máx)     |
|--------------------------|----------------------------------------------------|-----------------------|
| **Pregnancies** | Número de embarazos                                | 0 - 17                |
| **Glucose** | Concentración de glucosa en plasma a 2 horas       | 0 - 199               |
| **BloodPressure** | Presión arterial diastólica (mm Hg)                | 0 - 122               |
| **SkinThickness** | Grosor del pliegue cutáneo del tríceps (mm)        | 0 - 99                |
| **Insulin** | Insulina sérica de 2 horas (mu U/ml)               | 0 - 846               |
| **BMI** | Índice de Masa Corporal (kg/m²)                    | 0 - 67.1              |
| **DiabetesPedigreeFunction**| Función de pedigrí de diabetes (influencia genética) | 0.078 - 2.42          |
| **Age** | Edad (años)                                        | 21 - 81               |
| **Outcome** | Diagnóstico (0 = No, 1 = Sí)                       | 0 - 1                 |


## 4. Conclusiones

Basándonos en la media, mediana y desviación estándar obtenidas con describe(), podemos extraer las siguientes conclusiones:

### Conclusiones Generales:

* **Edad (Age):** La edad promedio es de 33.2 años, pero la mediana es de 29 años. Esto indica que la distribución está sesgada hacia la derecha; hay más pacientes jóvenes, pero un grupo de pacientes de mayor edad eleva el promedio.

* **Glucosa (Glucose):** La media de glucosa (120.9) es ligeramente superior a la mediana (117). Esto sugiere que algunos pacientes tienen niveles de glucosa muy altos. La desviación estándar de 31.97 muestra una variabilidad considerable en los niveles de glucosa.

* **Índice de Masa Corporal (BMI):** La media (31.99) y la mediana (32.0) son casi idénticas, lo que indica una distribución muy simétrica. El valor promedio se encuentra en la categoría de obesidad, lo que es un factor de riesgo conocido para la diabetes.

* **Insulina (Insulin):** Esta variable muestra la mayor dispersión. La media (79.8) es mucho más alta que la mediana (30.5), y la desviación estándar (115.2) es incluso mayor que la media. Esto se debe a la gran cantidad de valores en 0 y a la presencia de valores extremadamente altos (hasta 846), lo que indica datos muy dispersos y asimétricos.

* **Resultado (Outcome):** La media de esta variable es 0.349. Dado que los valores son 0 o 1, esto significa que aproximadamente el 34.9% de los pacientes en el dataset tienen un diagnóstico de diabetes.