# ¿Qué es un dataframe?

Una de sus principales características son los `DataFrame`, los cuales son muy *similares a las hojas de Excel*, pero permiten utilizar Python para manipularlos, lo que da mayor flexibilidad en la manipulación de datos, abre más posibilidades manipulación y permite la manipulación de un volumen de datos mucho mayor que en hojas de cálculo.

![DataFrame](dataframe.svg)

Para utilizarla, debemos importarla de la siguiente manera. Esto es similar a cuando en un computador instalamos un programa.

In [2]:
# importa la libreria Pandas, para utilizarla deberas invocarla usando "pd"
import pandas as pd

## ¿Cuál es su estructura?
Ejecuta el siguiente código

In [1]:
# crea una variable llamada "data" desde un Excel que está en Google Drive
data = pd.read_excel("https://docs.google.com/uc?export=download&id=1bqVTtpAF50QSlrtB6DjfeHx1w9UKT7O3")

# visualiza el dataFrame
data

NameError: name 'pd' is not defined

![picture](imagenes/dataframe.png)

La imagen muestra un DataFrame, que es una estructura de datos bidimensional, similar a una tabla de Excel. Sus elementos son:

* **Nombre de las columnas (axis=1)**: Encima del DataFrame se muestra el nombre de las columnas, que son "Artista" y "Spotify streams (millones)". Las columnas representan diferentes variables y cada una contiene datos de su respectiva categoría. La etiqueta 'axis=1' se refiere a la orientación horizontal de las columnas en el DataFrame.

* **Etiquetas de índice (axis=0)**: A la izquierda del DataFrame hay una columna adicional sin nombre que muestra las etiquetas de índice, que van desde 0 hasta 5. Estas son básicamente posiciones o identificadores únicos para cada fila de datos. La etiqueta 'axis=0' se refiere a la orientación vertical de las filas en el DataFrame. Si bien en esta imagen son números, estos valores pueden tomar otros tipos de datos, siempre y cuando sean identificadores únicos de cada fila.

* **Datos**: En el centro del DataFrame se encuentran los datos. Cada fila representa un conjunto de datos correspondientes a un artista y sus streams en Spotify expresados en millones.

* **Datos faltantes (NaN)**: En la última fila de la columna "Spotify streams (millones)", hay un valor "NaN". Este es un acrónimo de "Not a Number" y es utilizado en Pandas para indicar datos que faltan o que son indefinidos.

## Creando un DataFrame

Los DataFrame pueden ser creados de dos formas distintas: manualmente y desde un archivo.

### Manualmente

Los `dataframe` pueden crearse manualmente de distintas maneras, aunque la más sencilla es utilizando previamente un diccionario:

In [3]:
import pandas as pd

# Definir los datos en un diccionario
datos = {
    'Columna1': ['María', 'Pepe', 'Ana', 'Manuel'],
    'Columna2': ['Pontevedra','A Coruña', ' Pontevedra', 'Santiago'],
    'Columna3': ["18", '19', '17', '16']
}

# Crear el DataFrame
df = pd.DataFrame(datos)

# Mostrar el DataFrame
df

Unnamed: 0,Columna1,Columna2,Columna3
0,María,Pontevedra,18
1,Pepe,A Coruña,19
2,Ana,Pontevedra,17
3,Manuel,Santiago,16


In [4]:
# Para crearlo manualmente debes indicar el nombre de las columnas, datos, y opcionalmente los identificadores de cada set de datos
df_manual = pd.DataFrame(columns = ["Columna 1", "Columna 2", "Columna 3"],
                         index = ["Michael Scott", "Dwight Schrute", "Jim Halpert"],
                         data = [[4.0, 3.5, 5.5], [5.4, 5.5, 7.0], [6.6, 6.9, 7.0]])
# visualiza el dataFrame
df_manual

Unnamed: 0,Columna 1,Columna 2,Columna 3
Michael Scott,4.0,3.5,5.5
Dwight Schrute,5.4,5.5,7.0
Jim Halpert,6.6,6.9,7.0


In [5]:
import pandas as pd

# Definir los datos en un diccionario
datos = {
    'Nombre': ['María', 'Pablo', 'Marco'],
    'Edad': [25, 27, 30],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

# Crear el DataFrame
df = pd.DataFrame(datos)

# Mostrar el DataFrame
df

Unnamed: 0,Nombre,Edad,Ciudad
0,María,25,Madrid
1,Pablo,27,Barcelona
2,Marco,30,Valencia


### Creando un DataFrame a partir un archivo

También se pueden crear DataFrame a partir de archivos que contengan datos estructurados, como Excel, CSV u otros.

![picture](imagenes/read.png)

En particular ahora usaremos un archivo de Excel que está en Google Drive. Para ello utizaremos el método 'read_excel' de pandas.

In [6]:
import pandas as pd
df_excel = pd.read_excel("https://docs.google.com/uc?export=download&id=1RjyFp3seXXSwjJMVwT6FBs3lNniDxsNN")

df_excel

Unnamed: 0,ID_Producto,Producto,Cantidad,Precio
0,SKU1,Xbox Series X,65,500000
1,SKU4,Teclado mecánico Razer BlackWidow,130,250000
2,SKU7,"Monitor Gaming Asus 27""",45,750000
3,SKU11,Robot aspirador Roomba 960,30,450000
4,SKU26,Kindle Paperwhite,150,200000
5,SKU39,Cámara de acción Insta360 One X2,80,380000
6,SKU44,Cafetera Nespresso Vertuo,80,150000
7,SKU48,Nintendo Switch,50,280000
8,SKU62,PlayStation 5,75,480000
9,SKU63,Reloj Inteligente Apple Watch Series 6,90,600000


Si quieres utilizar alguna columna como índice, puedes hacerlo en la misma función:

In [7]:

df_excel = pd.read_excel("https://docs.google.com/uc?export=download&id=1RjyFp3seXXSwjJMVwT6FBs3lNniDxsNN", index_col = "ID_Producto")

df_excel

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500000
SKU4,Teclado mecánico Razer BlackWidow,130,250000
SKU7,"Monitor Gaming Asus 27""",45,750000
SKU11,Robot aspirador Roomba 960,30,450000
SKU26,Kindle Paperwhite,150,200000
SKU39,Cámara de acción Insta360 One X2,80,380000
SKU44,Cafetera Nespresso Vertuo,80,150000
SKU48,Nintendo Switch,50,280000
SKU62,PlayStation 5,75,480000
SKU63,Reloj Inteligente Apple Watch Series 6,90,600000
