# PRIMERA PREENTREGA DEL PROYECTO FINAL

# 1. El problema del negocio

#2. El dataset. Análisis Inicial: Diabetes Prediction India

### Información general:
- **Número de registros:** 5,292
- **Número de columnas:** 27
- **Valores nulos:** Ninguna columna contiene valores nulos

---

### Variables del dataset:

| Columna                             | Tipo        | Ejemplo / Valores posibles                |
|-------------------------------------|-------------|--------------------------------------------|
| `Age`                               | Numérica (int) | 48, 25, 78...                             |
| `Gender`                            | Categórica  | Male, Female, Other                        |
| `BMI`                               | Numérica (float) | 28.7, 35.5...                          |
| `Family_History`                    | Categórica  | Yes / No                                   |
| `Physical_Activity`                 | Categórica  | Low / Medium / High                        |
| `Diet_Type`                         | Categórica  | Vegetarian / Non-Vegetarian               |
| `Smoking_Status`                    | Categórica  | Never / Former / Current                   |
| `Alcohol_Intake`                    | Categórica  | None / Moderate / High                     |
| `Stress_Level`                      | Categórica  | Low / Medium / High                        |
| `Hypertension`                      | Categórica  | Yes / No                                   |
| `Cholesterol_Level`                 | Numérica (float) | Ej: 180.5                                |
| `Fasting_Blood_Sugar`              | Numérica (float) | Ej: 110.3                                |
| `Postprandial_Blood_Sugar`         | Numérica (float) | Ej: 145.8                                |
| `HBA1C`                             | Numérica (float) | Ej: 6.5                                  |
| `Heart_Rate`                        | Numérica (int) | Ej: 72                                   |
| `Waist_Hip_Ratio`                  | Numérica (float) | Ej: 0.89                                |
| `Urban_Rural`                       | Categórica  | Urban / Rural                              |
| `Health_Insurance`                  | Categórica  | Yes / No                                   |
| `Regular_Checkups`                  | Categórica  | Yes / No                                   |
| `Medication_For_Chronic_Conditions`| Categórica  | Yes / No                                   |
| `Pregnancies`                       | Numérica (int) | Ej: 0, 2                                 |
| `Polycystic_Ovary_Syndrome`         | Categórica  | Yes / No / 0 (posible codificación errónea)|
| `Glucose_Tolerance_Test_Result`     | Numérica (float) | Ej: 124.3                              |
| `Vitamin_D_Level`                   | Numérica (float) | Ej: 31.5                                |
| `C_Protein_Level`                   | Numérica (float) | Ej: 7.46                                |
| `Thyroid_Condition`                 | Categórica  | Yes / No                                   |
| `Diabetes_Status`                   | **Objetivo (Target)** | Yes / No                           |

---

#3. Una primera mirada al dataset

In [4]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [5]:
# Lectura
from google.colab import drive
drive.mount('/gdrive')

ruta = "/content/diabetes_prediction_india.csv"
data = pd.read_csv(ruta)

Drive already mounted at /gdrive; to attempt to forcibly remount, call drive.mount("/gdrive", force_remount=True).


In [6]:
print(data.shape)
data.head()

(5292, 27)


Unnamed: 0,Age,Gender,BMI,Family_History,Physical_Activity,Diet_Type,Smoking_Status,Alcohol_Intake,Stress_Level,Hypertension,...,Health_Insurance,Regular_Checkups,Medication_For_Chronic_Conditions,Pregnancies,Polycystic_Ovary_Syndrome,Glucose_Tolerance_Test_Result,Vitamin_D_Level,C_Protein_Level,Thyroid_Condition,Diabetes_Status
0,48,Male,35.5,No,High,Non-Vegetarian,Never,,Medium,Yes,...,No,No,No,0,0,124.3,31.5,7.46,Yes,Yes
1,18,Other,28.7,Yes,Medium,Non-Vegetarian,Current,Moderate,High,No,...,Yes,Yes,No,0,0,151.4,12.5,5.64,Yes,No
2,21,Other,30.0,Yes,High,Non-Vegetarian,Current,Moderate,High,Yes,...,No,No,Yes,0,0,106.1,35.8,7.2,No,Yes
3,25,Female,25.6,No,Medium,Vegetarian,Former,Moderate,High,Yes,...,No,No,Yes,1,No,85.6,15.4,6.53,Yes,No
4,78,Male,38.8,No,High,Non-Vegetarian,Current,High,High,No,...,No,No,Yes,0,0,77.0,28.6,0.58,No,Yes


In [7]:
# Veamos las variables categóricas y las numéricas
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5292 entries, 0 to 5291
Data columns (total 27 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Age                                5292 non-null   int64  
 1   Gender                             5292 non-null   object 
 2   BMI                                5292 non-null   float64
 3   Family_History                     5292 non-null   object 
 4   Physical_Activity                  5292 non-null   object 
 5   Diet_Type                          5292 non-null   object 
 6   Smoking_Status                     5292 non-null   object 
 7   Alcohol_Intake                     3512 non-null   object 
 8   Stress_Level                       5292 non-null   object 
 9   Hypertension                       5292 non-null   object 
 10  Cholesterol_Level                  5292 non-null   float64
 11  Fasting_Blood_Sugar                5292 non-null   float

#4. Limpieza

Realizaremos el proceso de limpieza teniendo en cuenta las situaciones más comunes:

1. Datos faltantes en algunas celdas
2. Columnas irrelevantes (que no responden al problema que queremos resolver)
3. Registros (filas) repetidos
4. Valores extremos (*outliers*) en el caso de las variables numéricas. Se deben analizar en detalle pues no necesariamente la solución es eliminarlos
5. Errores tipográficos en el caso de las variables categóricas

Al final de este proceso de limpieza deberíamos tener un set de datos **íntegro**, listo para la fase de Análisis Exploratorio.