# 3. Información sobre el DataFrame

Puedes obtener información sobre la estructura del **DataFrame**, tales como sus columnas, dimensiones (nº filas x  nº columnas), datos de filas...

Creamos un Dataframe a partir de un archivo con datos de artículos electrónicos que el profesor tiene guardado en Google Drive en formato .csv. El link al archivo es el indicado a  **https://drive.google.com/uc?export=download&id=16SQQX0ly--l9UvNBr5-KGRWb6todE1u6**.

Vamos a llamar al Dataframe: **df** (por ejemplo)

In [23]:
import pandas as pd
df = pd.read_csv("https://drive.google.com/uc?export=download&id=16SQQX0ly--l9UvNBr5-KGRWb6todE1u6")
df

Unnamed: 0,ID_Producto,Producto,Cantidad,Precio
0,SKU1,Xbox Series X,65,500
1,SKU4,Teclado mecánico Razer BlackWidow,130,250
2,SKU7,"Monitor Gaming Asus 27""",45,750
3,SKU11,Robot aspirador Roomba 960,30,450
4,SKU26,Kindle Paperwhite,150,200
5,SKU39,Cámara de acción Insta360 One X2,80,380
6,SKU44,Cafetera Nespresso Vertuo,80,150
7,SKU48,Nintendo Switch,50,280
8,SKU62,PlayStation 5,75,480
9,SKU63,Reloj Inteligente Apple Watch Series 6,90,600


## 3.1. Atributos para obtener información de un DataFrame

Existen varios comandos que nos permiten conocer cómo es el Dataframe cargado.

### - Atributo: **shape**

El atributo `shape` en un DataFrame de pandas es una propiedad muy útil que te permite conocer las **dimensiones** (nº filas, nº columnas) del DataFrame. Específicamente, shape devuelve una tupla que contiene dos elementos: `(filas, columnas)`

In [21]:
df.shape
# Tiene 30 filas y 3 columnas


(30, 4)

### - Atributo: **columns**

El atributo`columns` devuelve un objeto Index() que contiene los **nombres de las columnas**, lo que te permite ver rápidamente qué columnas están disponibles en tu DataFrame.

In [3]:
df.columns


Index(['ID_Producto', 'Producto', 'Cantidad', 'Precio'], dtype='object')

### - Atributo: **dtypes**

Con `dtypes` puedes acceder a los **tipos** de columnas de tu `DataFrame`. Los tipos con los que trabaja Pandas son:

* **object**: generalmente texto (strings)

* **int64**: números enteros

* **float64**: números decimales

* **bool**: valores booleanos (True/False)

* **datetime64**: fechas y horas

In [4]:
df.dtypes
# Nuestro Dataframe dará los siguientes resultados:

ID_Producto    object
Producto       object
Cantidad        int64
Precio          int64
dtype: object

### - Atributo: **column.dtypes**

También puedes usarlo en columnas especificas de dos formas equivalentes `NombreColumna.dtypes`o `["NombreColumna"].dtypes`

In [5]:
# Para conocer el tipo de columna "Precio"
df.Precio.dtypes


dtype('int64')

In [6]:
# Equivalente a la celda anterior
df["Precio"].dtypes


dtype('int64')

## 3.2. Accediendo al DataFrame

### - Accediendo a todos los datos de una columna
Puedes obterner rápidamente los datos de una columna usando `NombreDataframe.NombreColumna` o `NombreDataframe["NombreColumna"]`. Recuerda que nuestro Dataframe se llama **df**.

In [7]:
df.Cantidad


0      65
1     130
2      45
3      30
4     150
5      80
6      80
7      50
8      75
9      90
10    100
11    120
12     50
13     55
14     25
15     80
16     40
17     60
18     85
19    150
20    100
21     50
22     60
23     20
24    100
25     70
26     35
27     50
28     40
29    110
Name: Cantidad, dtype: int64

In [8]:
df["Cantidad"]


0      65
1     130
2      45
3      30
4     150
5      80
6      80
7      50
8      75
9      90
10    100
11    120
12     50
13     55
14     25
15     80
16     40
17     60
18     85
19    150
20    100
21     50
22     60
23     20
24    100
25     70
26     35
27     50
28     40
29    110
Name: Cantidad, dtype: int64

### - Accediendo a todos los datos de varias columnas
También puedes llamar a varias columnas usando la siguiente estructura `NombreDataframe[lista con nombre de las columnas]`
Recuerda que las listas en Python se escriben, a su vez, entre corchetes `[]`.

In [9]:
df[["Producto", "Cantidad"]] # Nótese los dobles corchetes


Unnamed: 0,Producto,Cantidad
0,Xbox Series X,65
1,Teclado mecánico Razer BlackWidow,130
2,"Monitor Gaming Asus 27""",45
3,Robot aspirador Roomba 960,30
4,Kindle Paperwhite,150
5,Cámara de acción Insta360 One X2,80
6,Cafetera Nespresso Vertuo,80
7,Nintendo Switch,50
8,PlayStation 5,75
9,Reloj Inteligente Apple Watch Series 6,90


### - Accediendo a los datos de una fila
Puedes encontrar una filas usando `loc` y como argumento el indice. Si el indice es un texto, debes especificarlo como tal.

In [10]:
df.loc[24]


ID_Producto       SKU172
Producto       iPhone 13
Cantidad             100
Precio            990000
Name: 24, dtype: object

### - Accediendo a los datos de varias filas contiguas
Si quieres seleccionar un conjunto de filas `contiguas` unas a las otras puedas usar `ìloc`con esta estructura `NombreDataframe.iloc[filaN, filaN+1]`. 

In [11]:
# Para acceder a los datos de las filas 4 a la 8
df.iloc[4:9]


Unnamed: 0,ID_Producto,Producto,Cantidad,Precio
4,SKU26,Kindle Paperwhite,150,200000
5,SKU39,Cámara de acción Insta360 One X2,80,380000
6,SKU44,Cafetera Nespresso Vertuo,80,150000
7,SKU48,Nintendo Switch,50,280000
8,SKU62,PlayStation 5,75,480000


### - Accediendo a los datos de varias filas alternas
Si quieres acceder a filas especificas, puedes entregar como atributo `iloc` y parámetros los índices de filas.

In [12]:
df.iloc[[0, 4, 7]]


Unnamed: 0,ID_Producto,Producto,Cantidad,Precio
0,SKU1,Xbox Series X,65,500000
4,SKU26,Kindle Paperwhite,150,200000
7,SKU48,Nintendo Switch,50,280000


Si el `DataFrame` tiene índice expresamente indicado, también puedes entregarle una lista de indices en los parámetros de `loc`.

In [16]:
df2 = df.set_index('ID_Producto')
df2.loc[["SKU97", "SKU154"]]

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU97,GoPro HERO9,100,320000
SKU154,iPad Pro 12.9,60,1050000


### - Accediendo a un grupo especifico de filas y columnas
Puedes especificar una lista de filas, seguido por una lista de columnas, y así obtener un conjunto muy especifico de datos

In [18]:
# Para obtener los datos de las filas con índices: 0, 4 y 7, y solo las columnas: Producto [1] y Precio [3]
df.iloc[[0, 4, 7], [1, 3]]


Unnamed: 0,Producto,Precio
0,Xbox Series X,500000
4,Kindle Paperwhite,200000
7,Nintendo Switch,280000


In [19]:
df[["Producto", "Precio"]].iloc[[0, 4, 7]]


Unnamed: 0,Producto,Precio
0,Xbox Series X,500000
4,Kindle Paperwhite,200000
7,Nintendo Switch,280000


**Nota:**

**¿Qué es el Slicing?**

Si te encuentras por primera vez con algo como `4:9`, esto se llama `slicing`. No es exclusivo de Pandas, sino que es una característica común de Python.

**¿Cómo Funciona el Slicing?**

> El slicing permite obtener una **parte de una lista o colección**. Se utiliza una estructura de `inicio:fin`, donde:

* Inicio: es el índice donde comienza la selección.
* Fin:  es el índice donde termina la selección (¡este índice no se incluye en el resultado!).

**Detalles Importantes**

* Inicio vacío: Si no especificas un valor `antes` de los dos puntos, significa que comienzas desde el primer índice (índice 0). Por ejemplo:[ :6]

* Fin vacío: Si no pones un valor `después` de los dos puntos, significa que seleccionas hasta el último índice disponible. Por ejemplo: [3, ]

* También puedes usar índices negativos para contar desde el final de la lista hacia el principio. Por ejemplo: [-3: ]

Ejemplos de Slicing:

[0:2] Selecciona desde la posición 0 hasta la posición 2, excluyendo 2.
[2:5] Selecciona desde la posición 2 hasta la posición 5, excluyendo 5.
[-2: ] Selecciona desde la segunda posición contando desde el final hasta el final de la lista.
[2: ] Selecciona desde la posición 2 hasta el final de la lista.