# Notebook 01: Adquisición y Primera Inspección de Datos 

## Indice 
1. [Objetivo](#objetivo)
2. [Información del Dataset](#info-datset)
3. [Carga de Datos](#carga)
4. [Inspección Inicial](#inspeccion)
5. [Validación de Calidad](#calidad)
6. [Conclusiones](#conclusiones)

## Objetivo

**¿Qué hago en este notebook?**
- Descargar/cargar el Dataset Pima Indians Diabetes
- Realizar primera inspección de estructura y contenido
- Validar calidad basica de los datos
- Identificar problemas potenciales para próximos pasos

**¿Por qué es importante?**
- Conocer los datos es el fundamento de cualquier análisis
- Detectar problemas temprano ahorra tiempo después
- Documentar el origen y características de los datos

**Entregables:**
- Dataset cargado y guardado en 'data/raw'
- Reporte de estructura y calidad
- Identificación de próximos pasos
  

## Información del Dataset

### Pima Indians Diabetes Database

**Origen:**
- National Institute of Diabetes and Digestive and Kidney Diseases
- Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S. (1988)

**Población:**
- Mujeres de la tribu Pima (Arizona, USA)
- Edad: ≥ 21 años
- Período: 1900s

**Propósito Original:**
- Investigar factores de risgo de diabetes tipo 2
- Los Pima tienen alta incidencia de diabetes (genética + estilo de vida)

**Variables (8 predictorias + 1 target):**

| Variable | Descripción | Unidad | Tipo |
|----------|-------------|--------|------|
| Pregnancies | Número de embarazos | count | int |
| Glucose | Concentración de glucosa (2h prueba tolerancia) | mg/dL | int |
| BloodPressure | Presión arterial diastólica | mmHg | int |
| SkinThickness | Grosor pliegue cutáneo tricipital | mm | int |
| Insulin | Insulina sérica (2h) | μU/mL | int |
| BMI | Índice de masa corporal | kg/m² | float |
| DiabetesPedigreeFunction | Función de pedigrí diabético* | - | float |
| Age | Edad | años | int |
| **Outcome** | **Diabetes (0=No, 1=Sí)** | **binario** | **int** |

*DiabetesPedigreeFunction: Score que representa la probabilidad de diabetes basado en historia familiar*


In [2]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import warnings
from pathlib import Path
import os 

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 2)

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
plt.rcParams['figure.figsize'] = (12,6)
plt.rcParams['font.size'] =  10


## Carga de Datos 

In [4]:
DATA_DIR = Path('../data/raw')
DATA_FILE = DATA_DIR / 'diabetes.csv'

if DATA_FILE.exists():
    df = pd.read_csv(DATA_FILE)
else: 
    print('Archivo no encontrado')
    print('Descargando desde fuente alternativa...')

    url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
    columns = ['Pregnancies','Glucose','BloodPressure',
           'SkinThickness','Insulin','BMI','DiabetesPedigreeFunction','Age','Outcome']


    try:
        df = pd.read_csv(url,names=columns)
        print(f'Dataset descargado y guardado en: {DATA_FILE}')
        # Crear directorio si no existe
        DATA_DIR.mkdir(parents=True, exist_ok=True)

        df.to_csv(DATA_FILE, index=False)
    except Exception as e:
        print(f'Error al descargar: {e}')
        raise

## Inspección Inicial

In [7]:
print('PRIMERAS 10 OBSERVACIONES')
display(df.head(10))

print("ÚLTIMAS 5 OBSERVACIONES")
display(df.tail())

print("INFORMACIÓN GENERAL DEL DATASET")
print(f'\n Dimensiones: {df.shape[0]} filas x {df.shape[1]} columnas')
print(f'Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB')
print(f'\n Variables numéricas: {df.select_dtypes(include=[np.number]).shape[1]}')
print(f'\n Variables categoricas: {df.select_dtypes(include=['object']).shape[1]}')

print('INFORMACIÓN DETALLADA')
df.info()

PRIMERAS 10 OBSERVACIONES


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.63,50,1
1,1,85,66,29,0,26.6,0.35,31,0
2,8,183,64,0,0,23.3,0.67,32,1
3,1,89,66,23,94,28.1,0.17,21,0
4,0,137,40,35,168,43.1,2.29,33,1
5,5,116,74,0,0,25.6,0.2,30,0
6,3,78,50,32,88,31.0,0.25,26,1
7,10,115,0,0,0,35.3,0.13,29,0
8,2,197,70,45,543,30.5,0.16,53,1
9,8,125,96,0,0,0.0,0.23,54,1


ÚLTIMAS 5 OBSERVACIONES


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
763,10,101,76,48,180,32.9,0.17,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,0.24,30,0
766,1,126,60,0,0,30.1,0.35,47,1
767,1,93,70,31,0,30.4,0.32,23,0


INFORMACIÓN GENERAL DEL DATASET

 Dimensiones: 768 filas x 9 columnas
Memoria: 0.05 MB

 Variables numéricas: 9

 Variables categoricas: 0
INFORMACIÓN DETALLADA
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB
