## PRÁCTICA 1

### 1.1 Cargar un conjunto de datos (dataset)

### La librería Pandas

Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos. Las principales características de esta librería son:

1. Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.
2. Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
3. Permite acceder a los datos mediante índices o nombres para filas y columnas.
4. Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
5. Permite trabajar con series temporales.
6. Realiza todas estas operaciones de manera muy eficiente.

Para utilizar Pandas debemos instalar esta librería:
<div align="center">
    <img src="1.png" alt="Instalar Pandas con pip" width="900">
</div>


In [2]:
# Una vez instalada la librería la importamo para su uso
import pandas as pd

Descargamos -en este caso- el archivo de datos `dataset` con el que vamos a trabajar desde internet:

<div align="center">
    <img src="2.png" alt="Descargar dataset desde Kaggle 1" width="500">    
</div>



El archivo descargado desde internet está en formato zip (archivo.zip):

<div align="center">
    <img src="3.png" alt="Archivo zip descargado desde Kaggle" width="500">
</div>


Lo visualizamos con excel y observamos que es un archivo en formato .csv sin títulos:
<div align="center">
    <img src="4.png" alt="Archivo zip descargado desde Kaggle" width="500">
</div>


In [2]:
# Con el archivo en el mismo directorio que el cuaderno de Jupyter, lo cargarmos mediante la función read_csv() de la librería pandas.
# Esto crea un DataFrame llamado df con los datos del archivo: 'pima-indians-diabetes.csv'.
file ='pima-indians-diabetes.csv'
df = pd.read_csv(file)
df

Unnamed: 0,6,148,72,35,0,33.6,627,50,1
0,1,85,66,29,0,26.6,351.00,31,0
1,8,183,64,0,0,23.3,672.00,32,1
2,1,89,66,23,94,28.1,167.00,21,0
3,0,137,40,35,168,43.1,2288.00,33,1
4,5,116,74,0,0,25.6,201.00,30,0
...,...,...,...,...,...,...,...,...,...
762,10,101,76,48,180,32.9,171.00,63,0
763,2,122,70,27,0,36.8,0.34,27,0
764,5,121,72,23,112,26.2,245.00,30,0
765,1,126,60,0,0,30.1,349.00,47,1


#### Función read_csv()

| Parámetro            | Descripción                                    | Ejemplo                                                  |
| -------------------- | ---------------------------------------------- | -------------------------------------------------------- |
| `filepath_or_buffer` | Ruta o URL del archivo CSV.                    | `'datos.csv'` o `'https://.../archivo.csv'`              |
| `sep`                | Separador de columnas (por defecto: `,`).      | `sep=';'` si el archivo usa punto y coma.                |
| `header`             | Fila que contiene los nombres de las columnas. | `header=0` (primera fila) o `None` si no hay encabezado. |
| `names`              | Lista de nombres para las columnas.            | `names=['A','B','C']`                                    |
| `index_col`          | Columna(s) que se usarán como índice.          | `index_col=0`                                            |
| `usecols`            | Lista de columnas a cargar.                    | `usecols=['Nombre', 'Edad']`                             |
| `dtype`              | Tipos de datos por columna.                    | `dtype={'Edad': int}`                                    |
| `na_values`          | Valores que deben interpretarse como `NaN`.    | `na_values=['?', 'N/A', 'nulo']`                         |
| `encoding`           | Codificación del archivo.                      | `encoding='utf-8'` o `encoding='latin-1'`                |
| `skiprows`           | Filas a omitir desde el inicio.                | `skiprows=1` (omite la primera fila)                     |
| `nrows`              | Número de filas a leer.                        | `nrows=100`                                              |
| `parse_dates`        | Intenta convertir columnas a tipo fecha.       | `parse_dates=['fecha']`                                  |

Ejemplos:

```python
#Leer un CSV con separador ;
df = pd.read_csv('ventas.csv', sep=';')

#Especificar columnas y tipo de datos
df = pd.read_csv('clientes.csv', cols=['Nombre', 'Edad'], dtype={'Edad': int})

#Manejar valores faltantes
df = pd.read_csv('encuesta.csv', na_values=['?', 'N/A', 'nulo'])

#Leer solo una parte del archivo
df = pd.read_csv('grande.csv', nrows=500)

#Leer un archivo desde una URL
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv'
df = pd.read_csv(url)




La clase de objetos DataFrame

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo. Las filas son registros que pueden contender datos de distintos tipos.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.



Observamos que el archivo no tiene nombres de columnas y especificamos el separador de los datos. Usualmente, en la página de descarga, encontramos
toda la información disponible sobre el conjunto de datos. En este caso estamos interesados en los títulos:

<div align="center">
    <img src="5.png" alt="Archivo zip descargado desde Kaggle" width="500">
</div>


`cols = ['preg','plas','pres','skin','test','mass','pedi','age','class']`

In [3]:
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']

df = pd.read_csv('pima-indians-diabetes.csv',
                 names = names, #Indicamos los nombres de las columnas
                 sep=',' #opcional, por defecto se utiliza ',' como separador
                )
df #Previsualizamos el dataframe

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.00,50,1
1,1,85,66,29,0,26.6,351.00,31,0
2,8,183,64,0,0,23.3,672.00,32,1
3,1,89,66,23,94,28.1,167.00,21,0
4,0,137,40,35,168,43.1,2288.00,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,171.00,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,245.00,30,0
766,1,126,60,0,0,30.1,349.00,47,1


In [4]:
df.head()      # Muestra las primeras 5 filas del conjunto de datos

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.0,50,1
1,1,85,66,29,0,26.6,351.0,31,0
2,8,183,64,0,0,23.3,672.0,32,1
3,1,89,66,23,94,28.1,167.0,21,0
4,0,137,40,35,168,43.1,2288.0,33,1


In [12]:
df.tail()      # Muestra las últimasas 5 filas del conjunto de datos

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
763,10,101,76,48,180,32.9,171.0,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,245.0,30,0
766,1,126,60,0,0,30.1,349.0,47,1
767,1,93,70,31,0,30.4,315.0,23,0


In [6]:
# Dimensiones del dataframe: número de filas y columnas
df.shape

(768, 9)

In [5]:
#Nombres de las columnas. Pero en este formato es poco útil para su uso posterior
df.columns

Index(['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'], dtype='object')

In [6]:
#Nombres de las columnas. En el formato de lista es útil para su uso posterior
#Una lista en Python es una colección ordenada y mutable de elementos que pueden ser de distintos tipos de datos (números, texto, booleanos, etc.).
#Se definen usando corchetes `` y son flexibles, permitiendo añadir, eliminar o modificar elementos existentes. 
list(df.columns)

['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

In [22]:
#La función value_counts() de Pandas nos permite calcular el número de apariciones de cada elemento único en una serie Pandas, 
#devolviendo un listado de elementos únicos y el número de apariciones de cada uno.
#Podemos referirnos a una columna específica del dataframe con la notación: dataframe.nombre_columna o dataframe['nombre_columna']
df.preg.value_counts()

preg
1     135
0     111
2     103
3      75
4      68
5      57
6      50
7      45
8      38
9      28
10     24
11     11
13     10
12      9
14      2
17      1
15      1
Name: count, dtype: int64

In [11]:
#Las instancias del conjunto de datos están distribuidas (etiquetadas) en dos clases. Lo verificamos con:
print(df['class'].value_counts())

class
0    500
1    268
Name: count, dtype: int64


In [8]:
df.info()      # Muestra información general

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   preg    768 non-null    int64  
 1   plas    768 non-null    int64  
 2   pres    768 non-null    int64  
 3   skin    768 non-null    int64  
 4   test    768 non-null    int64  
 5   mass    768 non-null    float64
 6   pedi    768 non-null    float64
 7   age     768 non-null    int64  
 8   class   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


Explicación de la salida:

**<class 'pandas.core.frame.DataFrame'>**

Indica que el objeto `df` pertenece a la clase **DataFrame** de **pandas**, es decir, una estructura de datos bidimensional (filas y columnas) similar a una hoja de cálculo o una tabla SQL.

**RangeIndex: 768 entries, 0 to 767**

Indica que el objeto `df` pertenece a la clase **DataFrame** de **pandas**, es decir, una estructura de datos bidimensional (filas y columnas) similar a una hoja de cálculo o una tabla SQL.


- El DataFrame tiene 768 filas.  
- El índice (columna implícita que identifica cada fila) va desde 0 hasta 767.  
- `RangeIndex` significa que el índice es una secuencia numérica continua, generada automáticamente.

Data columns (total 9 columns). Explicación de las columnas:

| Nº | Nombre | Valores no nulos | Tipo de dato | Interpretación |
|----|---------|------------------|---------------|----------------|
| 0 | **preg** | 768 | `int64` | Número de embarazos |
| 1 | **plas** | 768 | `int64` | Concentración de glucosa en plasma |
| 2 | **pres** | 768 | `int64` | Presión arterial diastólica |
| 3 | **skin** | 768 | `int64` | Espesor del pliegue cutáneo del tríceps |
| 4 | **test** | 768 | `int64` | Resultado de prueba de insulina |
| 5 | **mass** | 768 | `float64` | Índice de masa corporal (IMC) |
| 6 | **pedi** | 768 | `float64` | Función de pedigrí de diabetes. Predisposición de padecer diabetes a partir de la historia genética familiar |
| 7 | **age** | 768 | `int64` | Edad en años |
| 8 | **class** | 768 | `int64` | Variable objetivo (por ejemplo, 0 = no diabético, 1 = diabético) |

Observamos que:

- Todas las columnas tienen 768 valores no nulos, es decir, no hay valores faltantes (`NaN`).
- Hay 7 columnas de tipo entero (`int64`) y 2 de tipo decimal (`float64`).


**dtypes: float64(2), int64(7)**

- 2 columnas contienen valores numéricos con decimales (`float64`).
- 7 columnas contienen valores enteros (`int64`).


**memory usage: 54.1 KB**

Indica que el DataFrame ocupa aproximadamente 54,1 kilobytes en memoria RAM.  
Este valor puede variar según el tipo de datos de las columnas y la cantidad de filas.




In [9]:
df.describe()  # Estadísticas descriptivas

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,428.235091,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,340.485655,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.1,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,205.0,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,337.0,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,591.5,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2329.0,81.0,1.0


Interpretación de la salida de `df.describe()` en pandas

El método `df.describe()` muestra un resumen estadístico de las variables numéricas del DataFrame df.  
Cada fila representa una medida estadística y cada columna corresponde a una variable.



1. Filas de estadísticas descriptivas

| Estadístico | Descripción |
|--------------|-------------|
| **count** | Cantidad de valores no nulos en cada columna. |
| **mean** | Promedio (media aritmética) de los valores. |
| **std** | Desviación estándar: mide la dispersión de los datos respecto a la media. |
| **min** | Valor mínimo observado. |
| **25%** | Primer cuartil (Q1): el 25% de los valores son menores o iguales a este número. |
| **50%** | Mediana (Q2): la mitad de los valores están por debajo y la otra mitad por encima. |
| **75%** | Tercer cuartil (Q3): el 75% de los valores son menores o iguales a este número. |
| **max** | Valor máximo observado. |



2. Observaciones generales

Todas las columnas tienen **768 valores** (`count = 768`), lo que indica que **no hay valores faltantes** en las variables numéricas.  



3. Análisis de  las variables del conjunto de datos

| Variable | Interpretación estadística |
|-----------|----------------------------|
| **preg** (número de embarazos) | Promedio de 3.8 embarazos, con un máximo de 17. La desviación estándar (3.37) indica alta variabilidad entre mujeres. |
| **plas** (concentración de glucosa en plasma) | Promedio de 120.9, pero el mínimo es 0, lo que sugiere **valores ausentes codificados como cero**. |
| **pres** (presión arterial diastólica) | Media de 69.1 y mínimo 0 (valor fisiológicamente improbable). Se debería revisar o imputar estos ceros. |
| **skin** (espesor del pliegue cutáneo) | Promedio bajo (20.5) y mínimo 0. Probablemente algunos ceros representen datos faltantes. |
| **test** (insulina sérica) | Media de 79.8 y desviación alta (115.2), con valores que van de 0 a 846. Esto indica **alta dispersión** y posibles valores extremos. |
| **mass** (índice de masa corporal) | Promedio de 31.99 (valor típico de sobrepeso) y máximo de 67.1. Los ceros pueden representar valores ausentes. |
| **pedi** (función de pedigrí de diabetes) | Media de 428.2 y desviación de 340.4, lo que muestra una gran dispersión. Es una medida sin unidad, pero útil como indicador de riesgo. |
| **age** (edad) | Media de 33 años, rango entre 21 y 81. Distribución amplia, cubriendo distintas etapas de la vida de una persona. |
| **class** (atributo objetivo-variable a predecir) | Media de 0.34, indica que aproximadamente el 34% de los casos son positivos (por ejemplo, personas diabéticas si 1 = positivo). |


4. Conclusiones

- El dataset tiene valores razonables en este escenario, pero también **ceros sospechosos** en variables donde son poco probables (como presión, glucosa o IMC).  
- Es necesario realizar **preprocesamiento de datos** para reemplazar o imputar esos ceros antes del análisis.  
- La media y desviación estándar sugieren una población **heterogénea**, con algunos valores muy altos que podrían influir en los modelos predictivos.


5. Resumen

El método `df.describe()` es fundamental para:
- Detectar errores o valores anómalos.
- Entender la distribución básica de los datos.
- Comparar escalas entre variables numéricas.
- Guiar decisiones de limpieza y normalización antes del modelado estadístico o de machine learning.


In [14]:
#Podemos aislar tipos de datos específicos en tu salida resumida utilizando el argumento include. 
#Por ejemplo, elegimos las columnas con el tipo de datos integer. 
df.describe(include=[int])

Unnamed: 0,preg,plas,pres,skin,test,age,class
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,81.0,1.0


In [15]:
#Elegimos las columnas con el tipo de datos integer. 
df.describe(include=[float])

Unnamed: 0,mass,pedi
count,768.0,768.0
mean,31.992578,428.235091
std,7.88416,340.485655
min,0.0,0.1
25%,27.3,205.0
50%,32.0,337.0
75%,36.6,591.5
max,67.1,2329.0


**La clase de objetos DataFrame**

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo. Las filas son registros que pueden contender datos de distintos tipos.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.

<div align="center">
    <img src="6.png" alt="Estructura del dataframe1" width="500">
    <img src="7.png" alt="Estructura del dataframe2" width="500">
</div>

```python
#Esta función devuelve un objeto df, de tipo dataFrame de la librreía Pandas. Verificamos con type(df)
file ='pima-indians-diabetes.csv'
df = pd.read_csv(file)


In [17]:
type(df)

pandas.core.frame.DataFrame

### 1.2 Conceptos básicos de slicing

Uso de `iloc[]` en pandas

**`iloc[]`** en pandas se utiliza para seleccionar datos por posición numérica dentro de un `DataFrame` o un objeto `Series`.  
Permite acceder a filas y columnas en base a sus índices enteros, no en sus etiquetas o nombres.

La sintaxis básica es:

```python
df.iloc[fila, columna]


fila → posición o rango de filas a seleccionar.

columna → posición o rango de columnas a seleccionar.

Ambos parámetros son opcionales y se pueden combinar con listas, rangos (:) o pasos (::).

In [63]:
#Primera fila: índice primera fila 0.
df.iloc[0]

preg       6.0
plas     148.0
pres      72.0
skin      35.0
test       0.0
mass      33.6
pedi     627.0
age       50.0
class      1.0
Name: 0, dtype: float64

In [64]:
# Filas de índice 0 a 4. El índice 5 no se incluye.
df.iloc[0:5]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.0,50,1
1,1,85,66,29,0,26.6,351.0,31,0
2,8,183,64,0,0,23.3,672.0,32,1
3,1,89,66,23,94,28.1,167.0,21,0
4,0,137,40,35,168,43.1,2288.0,33,1


In [33]:
# con iloc[] las 5 primeras filas de las columnas 'preg' y 'plas'
df[['preg','plas']].iloc[0:5]

Unnamed: 0,preg,plas
0,6,148
1,1,85
2,8,183
3,1,89
4,0,137


In [65]:
#Filas específicas del dataframe
df.iloc[[0, 100, 200, 300]]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.0,50,1
100,1,163,72,0,0,39.0,1222.0,33,1
200,0,113,80,16,0,31.0,874.0,21,0
300,0,167,0,0,0,32.3,839.0,30,1


In [66]:
#Seleccionar todas las filas pero un rango de columnas 0:3 (columnas con índices 0,1,2).
# Es decir, Devuelve todas las filas, pero solo las tres primeras columnas: preg, plas y pres.
df.iloc[:, 0:3]

Unnamed: 0,preg,plas,pres
0,6,148,72
1,1,85,66
2,8,183,64
3,1,89,66
4,0,137,40
...,...,...,...
763,10,101,76
764,2,122,70
765,5,121,72
766,1,126,60


In [67]:
# Devuelve las filas 0 a 4 y las columnas 0 a 3: preg, plas, pres, skin.
df.iloc[0:5, 0:4]

Unnamed: 0,preg,plas,pres,skin
0,6,148,72,35
1,1,85,66,29
2,8,183,64,0
3,1,89,66,23
4,0,137,40,35


In [70]:
# Selecciona el valor que se encuentra en la fila 4 (quinta fila) y en la columna 1 (plas, concentración de glucosa).
print(df.iloc[4, 1])

137


In [71]:
#Devuelve las filas 100 a 104 y las columnas mass, pedi, age, class. Útil para explorar una porción específica del dataset.
df.iloc[100:105, 5:9]

Unnamed: 0,mass,pedi,age,class
100,39.0,1222.0,33,1
101,26.1,179.0,22,0
102,22.5,262.0,21,0
103,26.6,283.0,24,0
104,39.6,0.93,27,0


In [81]:
df.iloc[100:150:10] #No olvidar que no se incluye el última índice del intervalo

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
100,1,163,72,0,0,39.0,1222.0,33,1
110,3,171,72,33,135,33.3,199.0,24,1
120,0,162,76,56,100,53.2,759.0,25,1
130,4,173,70,14,168,29.7,361.0,33,1
140,3,128,78,0,0,21.1,268.0,55,0


In [77]:
# Las últimas 5 filas del dataframe. En este caso LA EXCLUYE!!!
df.iloc[-5:]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
763,10,101,76,48,180,32.9,171.0,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,245.0,30,0
766,1,126,60,0,0,30.1,349.0,47,1
767,1,93,70,31,0,30.4,315.0,23,0


In [78]:
# Mostrar las últimas 5 filas usando índices negativos
df.iloc[-5:-1] #El índice de la última fila de un dataframe se representa también con -1. Pero, en este caso, NO LA INCLUYE!!

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
763,10,101,76,48,180,32.9,171.0,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,245.0,30,0
766,1,126,60,0,0,30.1,349.0,47,1


In [74]:
#Devuelve una fila cada 100 posiciones (por ejemplo, filas 0, 100, 200, …).
df.iloc[::100]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.0,50,1
100,1,163,72,0,0,39.0,1222.0,33,1
200,0,113,80,16,0,31.0,874.0,21,0
300,0,167,0,0,0,32.3,839.0,30,1
400,4,95,64,0,0,32.0,161.0,31,1
500,2,117,90,19,71,25.2,313.0,21,0
600,1,108,88,19,0,27.1,0.4,24,0
700,2,122,76,27,200,35.9,483.0,26,0


In [42]:
# Desde la fila 200 hasta el final
df.iloc[200:]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
200,0,113,80,16,0,31.0,874.00,21,0
201,1,138,82,0,0,40.1,236.00,28,0
202,0,108,68,20,0,27.3,787.00,32,0
203,2,99,70,16,44,20.4,235.00,27,0
204,6,103,72,32,190,37.7,324.00,55,0
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,171.00,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,245.00,30,0
766,1,126,60,0,0,30.1,349.00,47,1


In [45]:
# Desde el inicio hasta la fila 10 (SIN INCLUIR 10 !!!!)
df.iloc[:10]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.0,50,1
1,1,85,66,29,0,26.6,351.0,31,0
2,8,183,64,0,0,23.3,672.0,32,1
3,1,89,66,23,94,28.1,167.0,21,0
4,0,137,40,35,168,43.1,2288.0,33,1
5,5,116,74,0,0,25.6,201.0,30,0
6,3,78,50,32,88,31.0,248.0,26,1
7,10,115,0,0,0,35.3,134.0,29,0
8,2,197,70,45,543,30.5,158.0,53,1
9,8,125,96,0,0,0.0,232.0,54,1


In [54]:
# Filas del 50 al 70, tomando una cada 5. NO INCLUYE LA ÚLTIMA (LA 70)!!!
df.iloc[50:70:5]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
50,1,103,80,11,82,19.4,491.0,22,0
55,1,73,50,10,0,23.0,248.0,21,0
60,2,84,0,0,0,0.0,304.0,21,0
65,5,99,74,27,0,29.0,203.0,32,0


#### Slicing sin índices usando `iloc[]` en pandas

En pandas, el método **`iloc[]`** se utiliza para seleccionar **filas y columnas por posición numérica**.  
Cuando usamos slicing dentro de `iloc[]` sin incluir alguno de los índices (inicio, fin o paso), pandas aplica los **valores por defecto**, exactamente igual que Python lo hace en listas o arreglos.



#### Sintaxis general de `iloc[]`

```python
df.iloc[inicio:fin:paso, inicio_col:fin_col:paso_col]


In [82]:
#Muestra todo el DataFrame. Es equivalente a df o df[:].
df.iloc[:, :]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.00,50,1
1,1,85,66,29,0,26.6,351.00,31,0
2,8,183,64,0,0,23.3,672.00,32,1
3,1,89,66,23,94,28.1,167.00,21,0
4,0,137,40,35,168,43.1,2288.00,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,171.00,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,245.00,30,0
766,1,126,60,0,0,30.1,349.00,47,1


In [83]:
#Devuelve todas las filas pero solo las columnas 0, 1 y 2 (preg, plas, pres).
df.iloc[:, :3]

Unnamed: 0,preg,plas,pres
0,6,148,72
1,1,85,66
2,8,183,64
3,1,89,66
4,0,137,40
...,...,...,...
763,10,101,76
764,2,122,70
765,5,121,72
766,1,126,60


In [49]:
# Devuelve las filas 0, 2, 4, 6, etc.
# Seleccionar una de cada dos filas. 
df.iloc[::2]


Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.00,50,1
2,8,183,64,0,0,23.3,672.00,32,1
4,0,137,40,35,168,43.1,2288.00,33,1
6,3,78,50,32,88,31.0,248.00,26,1
8,2,197,70,45,543,30.5,158.00,53,1
...,...,...,...,...,...,...,...,...,...
758,1,106,76,0,0,37.5,197.00,26,0
760,2,88,58,26,16,28.4,766.00,22,0
762,9,89,62,0,0,22.5,142.00,33,0
764,2,122,70,27,0,36.8,0.34,27,0


In [84]:
#Selecciona filas 0 a 9 (10 filas) y todas las columnas.
df.iloc[:10, :]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.0,50,1
1,1,85,66,29,0,26.6,351.0,31,0
2,8,183,64,0,0,23.3,672.0,32,1
3,1,89,66,23,94,28.1,167.0,21,0
4,0,137,40,35,168,43.1,2288.0,33,1
5,5,116,74,0,0,25.6,201.0,30,0
6,3,78,50,32,88,31.0,248.0,26,1
7,10,115,0,0,0,35.3,134.0,29,0
8,2,197,70,45,543,30.5,158.0,53,1
9,8,125,96,0,0,0.0,232.0,54,1


In [51]:
# Desde el incio hasta el final, cada 100 filas
df.iloc[::100]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.0,50,1
100,1,163,72,0,0,39.0,1222.0,33,1
200,0,113,80,16,0,31.0,874.0,21,0
300,0,167,0,0,0,32.3,839.0,30,1
400,4,95,64,0,0,32.0,161.0,31,1
500,2,117,90,19,71,25.2,313.0,21,0
600,1,108,88,19,0,27.1,0.4,24,0
700,2,122,76,27,200,35.9,483.0,26,0


In [None]:
#Devuelve todas las filas a partir de la posición 100 (inclusive) hasta el final del DataFrame, con todas las columnas.
df.iloc[100:, :]

In [85]:
# Devuelve todas las filas y las columnas desde la posición 5 en adelante → mass, pedi, age, class.
df.iloc[:, 5:]

Unnamed: 0,mass,pedi,age,class
0,33.6,627.00,50,1
1,26.6,351.00,31,0
2,23.3,672.00,32,1
3,28.1,167.00,21,0
4,43.1,2288.00,33,1
...,...,...,...,...
763,32.9,171.00,63,0
764,36.8,0.34,27,0
765,26.2,245.00,30,0
766,30.1,349.00,47,1


In [86]:
#Devuelve una fila cada 2 posiciones (0, 2, 4, 6, …).
df.iloc[::2, :]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.00,50,1
2,8,183,64,0,0,23.3,672.00,32,1
4,0,137,40,35,168,43.1,2288.00,33,1
6,3,78,50,32,88,31.0,248.00,26,1
8,2,197,70,45,543,30.5,158.00,53,1
...,...,...,...,...,...,...,...,...,...
758,1,106,76,0,0,37.5,197.00,26,0
760,2,88,58,26,16,28.4,766.00,22,0
762,9,89,62,0,0,22.5,142.00,33,0
764,2,122,70,27,0,36.8,0.34,27,0


In [87]:
# Devuelve todas las filas, pero solo una columna cada tres (índices 0, 3, 6 → preg, skin, pedi).
df.iloc[:, ::3]

Unnamed: 0,preg,skin,pedi
0,6,35,627.00
1,1,29,351.00
2,8,0,672.00
3,1,23,167.00
4,0,35,2288.00
...,...,...,...
763,10,48,171.00
764,2,27,0.34
765,5,23,245.00
766,1,0,349.00


In [88]:
#Filas 50 a 100, saltando de 10 en 10
df.iloc[50:100:10, :]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
50,1,103,80,11,82,19.4,491.0,22,0
60,2,84,0,0,0,0.0,304.0,21,0
70,2,100,66,20,90,32.9,867.0,28,1
80,3,113,44,13,0,22.4,0.14,22,0
90,1,80,55,0,0,19.1,258.0,21,0


In [89]:
#Columnas 0 a 8, saltando de 2 en 2. Devuelve las columnas 0, 2, 4, 6, 8 → preg, pres, test, pedi, class.
df.iloc[:, 0:9:2]

Unnamed: 0,preg,pres,test,pedi,class
0,6,72,0,627.00,1
1,1,66,0,351.00,0
2,8,64,0,672.00,1
3,1,66,94,167.00,0
4,0,40,168,2288.00,1
...,...,...,...,...,...
763,10,76,180,171.00,0
764,2,70,0,0.34,0
765,5,72,112,245.00,0
766,1,60,0,349.00,1


In [90]:
#Invertir el orden de las filas. Devuelve el DataFrame de abajo hacia arriba (última fila primero).
df.iloc[::-1, :]


Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
767,1,93,70,31,0,30.4,315.00,23,0
766,1,126,60,0,0,30.1,349.00,47,1
765,5,121,72,23,112,26.2,245.00,30,0
764,2,122,70,27,0,36.8,0.34,27,0
763,10,101,76,48,180,32.9,171.00,63,0
...,...,...,...,...,...,...,...,...,...
4,0,137,40,35,168,43.1,2288.00,33,1
3,1,89,66,23,94,28.1,167.00,21,0
2,8,183,64,0,0,23.3,672.00,32,1
1,1,85,66,29,0,26.6,351.00,31,0
