# 2. ¿Qué es un DataFrame?

Una de sus principales características son los `DataFrame`, los cuales son muy *similares a las hojas de Excel*, pero permiten utilizar Python para manipularlos, lo que da mayor flexibilidad en la manipulación de datos, abre más posibilidades manipulación y permite la manipulación de un volumen de datos mucho mayor que en hojas de cálculo.

```{figure} ../pandas_tic_2/imagenes/dataframe.svg
---
name: dataframe
width: 50%
---
Estructura de un DataFrame de Pandas



Hay varias formas de crear un `DataFrame`, como veremos más adelante, pero una de las más habituales es extraer los datos de un archivo de **Excel** (.xls) o un archivo **CSV** (.csv). 
La forma de crear un dataframe a partir de un archivo de Excel es:

`nombre_dataframe = pd.read_excel("archivo.xls")`

## 2.1. Estructura de un DataFrame
Ejecuta el siguiente código. Por ahora no te preocupes de su significado.

In [1]:
# Importa la librería Pandas, para utilizarla más adelante, deberás invocarla usando "pd"

import pandas as pd

# Crea un DataFrame llamado, por ejemplo, "data" desde un Excel que está en Google Drive
data = pd.read_excel("https://docs.google.com/uc?export=download&id=1bqVTtpAF50QSlrtB6DjfeHx1w9UKT7O3")

# Imprime el DataFrame "data"
data


Unnamed: 0,Artista,Spotify streams (millones)
0,Taylor Swift,29100.0
1,Bad Bunny,16370.0
2,The Weeknd,14140.0
3,Drake,14030.0
4,Peso Pluma,10540.0
5,Feid,


La imagen muestra un `DataFrame`, que es una estructura de datos bidimensional, similar a una tabla de Excel. Sus elementos son:

* **Nombre de las columnas (axis=1)**: Encima del DataFrame se muestra el nombre de las columnas, que son "**Artista**" y "**Spotify streams (millones)**". Las columnas representan diferentes variables y cada una contiene datos de su respectiva categoría. La etiqueta 'axis=1' se refiere a la orientación horizontal de las columnas en el DataFrame.

* **Etiquetas de índice (axis=0)**: A la izquierda del DataFrame hay una columna adicional sin nombre que muestra las etiquetas de índice, que van desde 0 hasta 5 (en este caso). Estas son básicamente posiciones o **identificadores únicos para cada fila** de datos. La etiqueta 'axis=0' se refiere a la orientación vertical de las filas en el DataFrame. Si bien en esta imagen son números, estos valores pueden tomar otros tipos de datos, siempre y cuando sean identificadores únicos de cada fila.

* **Datos**: En el centro del DataFrame se encuentran los datos. Cada fila representa un conjunto de datos correspondientes a un artista y sus streams en Spotify expresados en millones.

* **Datos faltantes (NaN)**: En la última fila de la columna "Spotify streams (millones)", hay un valor "NaN". Este es un acrónimo de "Not a Number" y es utilizado en Pandas para indicar datos que faltan o que son indefinidos.

```{figure} ../pandas_tic_2/imagenes/dataframe.png
---
figclass: margin
name: dataframe
---
DataFrame
```

## 2.2. Crear un DataFrame

Los `DataFrame` pueden ser creados de dos formas distintas: **manualmente** y desde un **archivo** ya creado.

```{mermaid}
flowchart LR
    A[Manualmente] -->|Diccionario| B(DataFrame)
    C[Importando Archivo] -->|Excel, CSV, JSON, SQL| B
```

### 2.2.1. Crear un DataFrame manualmente

Los `DataFrame` pueden crearse manualmente de distintas maneras, aunque la más sencilla es utilizando previamente un **diccionario**. El primer paso será crear el diccionario y después crear el DataFrame con `DataFrame( )`

**Ejemplo 1**:

In [2]:
# Crea un DataFrame llamado "data" desde un archivo CSV que está en Google Drive

# Importamos pandas y lo llamamos pd
import pandas as pd

# Definir los datos en un diccionario
# Para crearlo manualmente debes indicar el nombre de las columnas, datos, y opcionalmente los identificadores de cada set de datos
diccionario = {
    'Columna1': ['María', 'Pepe', 'Ana', 'Manuel'],
    'Columna2': ['Pontevedra','A Coruña', ' Pontevedra', 'Santiago'],
    'Columna3': ["18", '19', '17', '16']
}

# Crear el DataFrame a partir del diccionario y asignarlo a la variable "df"
df = pd.DataFrame(diccionario)

# Mostrar el DataFrame
df


Unnamed: 0,Columna1,Columna2,Columna3
0,María,Pontevedra,18
1,Pepe,A Coruña,19
2,Ana,Pontevedra,17
3,Manuel,Santiago,16


**Ejemplo 2**:

In [3]:
import pandas as pd

# Definir los datos en un diccionario
empleados = {
    'Nombre': ['María', 'Pablo', 'Marco'],
    'Edad': [25, 27, 30],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

# Crear el DataFrame
df = pd.DataFrame(empleados)

# Mostrar el DataFrame
df


Unnamed: 0,Nombre,Edad,Ciudad
0,María,25,Madrid
1,Pablo,27,Barcelona
2,Marco,30,Valencia


### 2.2.2. Creando un DataFrame a partir un archivo

También se pueden crear `DataFrame` a partir de archivos que contengan datos estructurados, como Excel, CSV u otros.

<img src="imagenes/read.png" alt="Read DataFrame" align="center" width="40%">


Para crear un DataFrame a partir de un archivo hay que utilizar el método `read_*`. sustituyendo * por el archivo utilizado. Por ejemplo:
* `read_excel` si es un archivo de Excel.
* `read_csv` si es un archivo csv.

In [4]:
# Importamos pandas y lo llamamos pd
import pandas as pd

# Cargar los datos desde un archivo CSV en Google Drive
datos = pd.read_excel("https://docs.google.com/uc?export=download&id=1RjyFp3seXXSwjJMVwT6FBs3lNniDxsNN")

# Mostrar el DataFrame
datos


Unnamed: 0,ID_Producto,Producto,Cantidad,Precio
0,SKU1,Xbox Series X,65,500000
1,SKU4,Teclado mecánico Razer BlackWidow,130,250000
2,SKU7,"Monitor Gaming Asus 27""",45,750000
3,SKU11,Robot aspirador Roomba 960,30,450000
4,SKU26,Kindle Paperwhite,150,200000
5,SKU39,Cámara de acción Insta360 One X2,80,380000
6,SKU44,Cafetera Nespresso Vertuo,80,150000
7,SKU48,Nintendo Switch,50,280000
8,SKU62,PlayStation 5,75,480000
9,SKU63,Reloj Inteligente Apple Watch Series 6,90,600000


## 2.3. Índices de un DataFrame

Como puedes observar, al visualizar los DataFrames, se crea una columna nueva (sin nombre) al principio con una sucesión de números únicos empezando por el 0. Estos son los **índices** del DataFrame e identifican cada uno de sus valores (filas). Por ejemplo, el índice `15` anterior identifica de forma unívoca la fila ` SKU131 Samsung Galaxy 80 850000`.

Si quieres utilizar alguna otra columna como **índice**, puedes hacerlo en la misma función con `ìndex_col = "nombreColumna"`:

In [5]:
import pandas as pd
data = pd.read_excel("https://docs.google.com/uc?export=download&id=1RjyFp3seXXSwjJMVwT6FBs3lNniDxsNN", index_col = "ID_Producto")
data


Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500000
SKU4,Teclado mecánico Razer BlackWidow,130,250000
SKU7,"Monitor Gaming Asus 27""",45,750000
SKU11,Robot aspirador Roomba 960,30,450000
SKU26,Kindle Paperwhite,150,200000
SKU39,Cámara de acción Insta360 One X2,80,380000
SKU44,Cafetera Nespresso Vertuo,80,150000
SKU48,Nintendo Switch,50,280000
SKU62,PlayStation 5,75,480000
SKU63,Reloj Inteligente Apple Watch Series 6,90,600000
