![picture](https://drive.google.com/uc?id=1t85VSkuEnCm-X8egDjib0GMTGZT0LM3c)
# Introducción a Pandas
Preparado por [Sebastián Cisterna](https://www.linkedin.com/in/scisterna/)

## ¿Qué es una librería de Python?
Las librerías de Python son conjuntos de funciones y métodos que permiten realizar muchas acciones sin necesidad de escribir código desde cero. Básicamente tomas prestado el código que hizo otra persona para algún caso especifico.

Una de estas librerías es Pandas, la cual se utiliza para el análisis y manipulación de datos.

## ¿Qué es Pandas?
Pandas es una potente librería de código abierto para Python, la cual nos permite manipular diversos tipos de datos estructurados, incluyendo funciones para leer y escribir datos en varios formatos, como Excel, CSV y más.

Una de sus principales características son los `DataFrame`, los cuales son muy similares a las hojas de Excel, pero permiten utilizar Python para manipularlos, lo que da mayor flexibilidad en la manipulación de datos, abre más posibilidades manipulación y permite la manipulación de un volumen de datos mucho mayor que en hojas de cálculo.

Para utilizarla, debemos importarla de la siguiente manera. Esto es similar a cuando en un computador instalamos un programa.

In [None]:
# importa la libreria Pandas, para utilizarla deberas invocarla usando "pd"
import pandas as pd

## ¿Qué es un DataFrame? ¿Cuál es su estructura?
Ejecuta el siguiente código

In [None]:
# crea una variable llamada "data" desde un Excel que está en Google Drive
data = pd.read_excel("https://docs.google.com/uc?export=download&id=1bqVTtpAF50QSlrtB6DjfeHx1w9UKT7O3")

# visualiza el dataFrame
data

Unnamed: 0,Artista,Spotify streams (millones)
0,Taylor Swift,29100.0
1,Bad Bunny,16370.0
2,The Weeknd,14140.0
3,Drake,14030.0
4,Peso Pluma,10540.0
5,Feid,


![picture](https://drive.google.com/uc?id=1gU9nyIWrW0LU5B5h6wIjtPMXUYOHlpuG)

La imagen muestra un DataFrame, que es una estructura de datos bidimensional, similar a una tabla de Excel. Sus elementos son:

* **Nombre de las columnas (axis=1)**: Encima del DataFrame se muestra el nombre de las columnas, que son "Artista" y "Spotify streams (millones)". Las columnas representan diferentes variables y cada una contiene datos de su respectiva categoría. La etiqueta 'axis=1' se refiere a la orientación horizontal de las columnas en el DataFrame.

* **Etiquetas de índice (axis=0)**: A la izquierda del DataFrame hay una columna adicional sin nombre que muestra las etiquetas de índice, que van desde 0 hasta 5. Estas son básicamente posiciones o identificadores únicos para cada fila de datos. La etiqueta 'axis=0' se refiere a la orientación vertical de las filas en el DataFrame. Si bien en esta imagen son números, estos valores pueden tomar otros tipos de datos, siempre y cuando sean identificadores únicos de cada fila.

* **Datos**: En el centro del DataFrame se encuentran los datos. Cada fila representa un conjunto de datos correspondientes a un artista y sus streams en Spotify expresados en millones.

* **Datos faltantes (NaN)**: En la última fila de la columna "Spotify streams (millones)", hay un valor "NaN". Este es un acrónimo de "Not a Number" y es utilizado en Pandas para indicar datos que faltan o que son indefinidos.

### Creando un DataFrame
Los DataFrame pueden ser creados de varias formas distintas

### Creando un DataFrame manualmente
Puedes indicarle los datos que necesitas manualmente, por ejemplo:

In [None]:
# Para crearlo manualmente debes indicar el nombre de las columnas, datos, y opcionalmente los identificadores de cada set de datos

df_manual = pd.DataFrame(columns = ["Control 1", "Control 2", "Control 3"],
                         index = ["Michael Scott", "Dwight Schrute", "Jim Halpert"],
                         data = [[4.0, 3.5, 5.5], [5.4, 5.5, 7.0], [6.6, 6.9, 7.0]])

df_manual

Unnamed: 0,Control 1,Control 2,Control 3
Michael Scott,4.0,3.5,5.5
Dwight Schrute,5.4,5.5,7.0
Jim Halpert,6.6,6.9,7.0


### Creando un DataFrame a partir un archivo
También se pueden crear DataFrame a partir de archivos que contengan datos estructurados, como Excel, CSV u otros.

En particular ahora usaremos un archivo de Excel que está en Google Drive. Ten presente que también puedes subirlo a Colab directamente.

In [None]:
df_excel = pd.read_excel("https://docs.google.com/uc?export=download&id=1RjyFp3seXXSwjJMVwT6FBs3lNniDxsNN")

df_excel

Unnamed: 0,ID_Producto,Producto,Cantidad,Precio
0,SKU1,Xbox Series X,65,500000
1,SKU4,Teclado mecánico Razer BlackWidow,130,250000
2,SKU7,"Monitor Gaming Asus 27""",45,750000
3,SKU11,Robot aspirador Roomba 960,30,450000
4,SKU26,Kindle Paperwhite,150,200000
5,SKU39,Cámara de acción Insta360 One X2,80,380000
6,SKU44,Cafetera Nespresso Vertuo,80,150000
7,SKU48,Nintendo Switch,50,280000
8,SKU62,PlayStation 5,75,480000
9,SKU63,Reloj Inteligente Apple Watch Series 6,90,600000


In [None]:
# Si el archivo tiene muchas hojas, y/o quieres añadir las filas como indices, puedes hacerlo en la misma función
df_excel = pd.read_excel("https://docs.google.com/uc?export=download&id=1RjyFp3seXXSwjJMVwT6FBs3lNniDxsNN",
                         sheet_name = "productos",
                         index_col = "ID_Producto")

df_excel

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500000
SKU4,Teclado mecánico Razer BlackWidow,130,250000
SKU7,"Monitor Gaming Asus 27""",45,750000
SKU11,Robot aspirador Roomba 960,30,450000
SKU26,Kindle Paperwhite,150,200000
SKU39,Cámara de acción Insta360 One X2,80,380000
SKU44,Cafetera Nespresso Vertuo,80,150000
SKU48,Nintendo Switch,50,280000
SKU62,PlayStation 5,75,480000
SKU63,Reloj Inteligente Apple Watch Series 6,90,600000


### Información sobre el DataFrame
Puedes obtener información sobre el DataFrame, tales como sus columnas, y dimensiones (cuantas filas, y cuantas columnas) tiene.

In [None]:
df_excel.shape # Tiene 30 filas y 3 columnas

(30, 3)

In [None]:
df_excel.columns

Index(['Producto', 'Cantidad', 'Precio'], dtype='object')

Con `dtypes` puedes acceder a los tipos de tu `DataFrame`

In [None]:
df_excel.dtypes

Producto    object
Cantidad     int64
Precio       int64
dtype: object

También puedes usarlo en columnas especificas

In [None]:
df_excel.Precio.dtypes

dtype('int64')

In [None]:
# Equivalente a la celda anterior
df_excel["Precio"].dtypes

dtype('int64')

## Accediendo al DataFrame

### Accediendo a una columna
Puedes llamar rápidamente los datos de una columna usando `df['Nombre de la columna']` o `df.NombreColumna`

In [None]:
df_excel["Cantidad"]

ID_Producto
SKU1       65
SKU4      130
SKU7       45
SKU11      30
SKU26     150
SKU39      80
SKU44      80
SKU48      50
SKU62      75
SKU63      90
SKU97     100
SKU98     120
SKU110     50
SKU115     55
SKU126     25
SKU131     80
SKU134     40
SKU154     60
SKU158     85
SKU162    150
SKU163    100
SKU168     50
SKU170     60
SKU171     20
SKU172    100
SKU176     70
SKU178     35
SKU187     50
SKU191     40
SKU196    110
Name: Cantidad, dtype: int64

In [None]:
df_excel.Cantidad

ID_Producto
SKU1       65
SKU4      130
SKU7       45
SKU11      30
SKU26     150
SKU39      80
SKU44      80
SKU48      50
SKU62      75
SKU63      90
SKU97     100
SKU98     120
SKU110     50
SKU115     55
SKU126     25
SKU131     80
SKU134     40
SKU154     60
SKU158     85
SKU162    150
SKU163    100
SKU168     50
SKU170     60
SKU171     20
SKU172    100
SKU176     70
SKU178     35
SKU187     50
SKU191     40
SKU196    110
Name: Cantidad, dtype: int64

### Accediendo a varias columnas
También puedes llamar a varias columnas usando la siguiente estructura
`df[lista con nombre de las columnas]`

In [None]:
df_excel[["Producto", "Cantidad"]] # Notese que es una lista dentro del método para llamar las columnas

Unnamed: 0_level_0,Producto,Cantidad
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
SKU1,Xbox Series X,65
SKU4,Teclado mecánico Razer BlackWidow,130
SKU7,"Monitor Gaming Asus 27""",45
SKU11,Robot aspirador Roomba 960,30
SKU26,Kindle Paperwhite,150
SKU39,Cámara de acción Insta360 One X2,80
SKU44,Cafetera Nespresso Vertuo,80
SKU48,Nintendo Switch,50
SKU62,PlayStation 5,75
SKU63,Reloj Inteligente Apple Watch Series 6,90


### Accediendo a las filas
Puedes encontrar las filas usando `loc` y como argumento el indice. Si el indice es un texto, debes especificarlo como tal.

In [None]:
df_excel.loc["SKU26"]

Producto    Kindle Paperwhite
Cantidad                  150
Precio                 200000
Name: SKU26, dtype: object

### Accediendo a varias filas
Si quieres seleccionar todas las filas que esten continuas unas a las otras puedas usar esta estructura

In [None]:
df_excel.iloc[0:2]

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500000
SKU4,Teclado mecánico Razer BlackWidow,130,250000


**Nota**

Si es esta es la primera vez que te encuentras con algo como `0:2` a eso se le llama **slicing**, y no ex exclusivo de Pandas.

Es una convención que permite obtener una parte de una lista y se hace con esta estructura `inicio:fin` donde inicio y fin son índices.

La primera parte, antes del `:`, significa el indice desde el cual comienza, y la segunda parte hasta donde llega.

Si no hay nada en la primera parte significa que parte desde el primer indice, y si no hay nada en la segunda parte significa que llega hasta el último índice.

También se pueden usar números negativos para hacer la acción en reversa.

Algunos ejemplos:

* `0:2` seleccionaría desde la posición 0 hasta la posición 2, excluyéndola.
* `2:5` seleccionaría desde la posición 2 hasta la posición 5, excluyendo la posición 5.
* `-2:` seleccionaría desde la posición 2 pero desde el final hacia el inicio, hasta la última posición disponible.
* `2:` seleccionaría desde la posición 2 hasta la última posición disponible.

Si quieres acceder a filas especificas, puedes entregar como parametro una lista de las filas

In [None]:
df_excel.iloc[[0, 4, 7]]

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500000
SKU26,Kindle Paperwhite,150,200000
SKU48,Nintendo Switch,50,280000


Si el `DataFrame` tiene indice, también puedes entregarle una lista de indices en los parámetros de `loc`

In [None]:
df_excel.loc[["SKU97", "SKU154"]]

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU97,GoPro HERO9,100,320000
SKU154,iPad Pro 12.9,60,1050000


### Accediendo a un set especifico de filas y columnas
Puedes especificar una lista de filas, seguido por una lista de Columnas, y así obtener un conjunto muy especifico de datos

In [None]:
df_excel.iloc[[0, 4, 7], [1, 2]]

Unnamed: 0_level_0,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
SKU1,65,500000
SKU26,150,200000
SKU48,50,280000


Si quieres llamar a las columnas por su nombre, puedes usar una estructura como esta

In [None]:
df_excel[["Precio", "Cantidad"]].iloc[[0, 4, 7]]

Unnamed: 0_level_0,Precio,Cantidad
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
SKU1,500000,65
SKU26,200000,150
SKU48,280000,50


---
# Síguenos:
- TikTok: https://www.tiktok.com/@evoacdm
- Instagram: https://www.instagram.com/evoacdm/
- LinkedIn: https://www.linkedin.com/company/evoacmd/
- YouTube: https://www.youtube.com/@evoacdm
- Sitio web: https://evoacademy.cl