# Pastillas de programación (Python): Pandas para usuarios de Excel

Este post está dirigido a quienes utilizamos Excel diariamente desde hace tiempo y cuando nos encontramos con Pandas <br> extrañamos un poco esas operaciones básicas y repetitivas.<br>
Es una guía rapida y pueden descargar el respositorio de mi guithub para tenerlo a mano, modificar, consultar, etc.<br>
https://github.com/agus-ph/mediumpost_pandas_excel.git <br>
Ahí vamos! 

### Cargamos la librería, traemos los datos e imprimimos algo de info útil de nuestro dataset

In [6]:
import pandas as pd
df = pd.read_excel("dataset_muestra.xlsx")
print(df.head(10))
print("Columnas", df.columns) # En este caso no sería necesario pero si tenemos muchas columnas es muy útil
print("Filas x Columnas", df.shape) # Nos muestra la cantidad de filas y columnas
print("Tipo de datos:\n", df.dtypes) # Nos muestra el tipo de dato que contiene cada columna

        Date    Client     Product  Net Price  Sales Tax
0 2022-08-01  Client A      Led TV        227       22.7
1 2022-08-01  Client B  Smartphone        549       54.9
2 2022-08-01  Client C     Blender         34        3.4
3 2022-08-01  Client F  Hair dryer        110       11.0
4 2022-08-02  Client G  Headphones        170       17.0
5 2022-08-02  Client D    Notebook        709       70.9
6 2022-08-02  Client A  Smartphone        549       54.9
7 2022-08-02  Client E  Smartphone        549       54.9
8 2022-08-03  Client H  Smartphone        549       54.9
9 2022-08-03  Client F     Trimmer         47        4.7
Columnas Index(['Date', 'Client', 'Product', 'Net Price', 'Sales Tax'], dtype='object')
Filas x Columnas (28, 5)
Tipo de datos:
 Date         datetime64[ns]
Client               object
Product              object
Net Price             int64
Sales Tax           float64
dtype: object


### Algo que muy frecuentemente queremos conocer es el total de los valores de una columna. En Excel seleccionamos todos los valores de la columna y hacemos una sumatoria, en Pandas:


In [8]:
df["Net Price"].sum()

8207

### Otra operación muy frecuente es sumar valores de dos columnas y crear una nueva. En este caso vamos a sumar el precio neto y los impuestos.

In [12]:
df["Gross Price"] = df["Net Price"] + df["Sales Tax"]
df.head(5)

Unnamed: 0,Date,Client,Product,Net Price,Sales Tax,Gross Price
0,2022-08-01,Client A,Led TV,227,22.7,249.7
1,2022-08-01,Client B,Smartphone,549,54.9,603.9
2,2022-08-01,Client C,Blender,34,3.4,37.4
3,2022-08-01,Client F,Hair dryer,110,11.0,121.0
4,2022-08-02,Client G,Headphones,170,17.0,187.0


### Ahora veamos como ordenar por por nombre decliente

In [17]:
df.sort_values(by="Client").head(6) # La función head() la agrego solo para que no imprima todo

Unnamed: 0,Date,Client,Product,Net Price,Sales Tax,Gross Price
0,2022-08-01,Client A,Led TV,227,22.7,249.7
25,2022-08-07,Client A,Tablet,199,19.9,218.9
14,2022-08-04,Client A,Notebook,709,70.9,779.9
6,2022-08-02,Client A,Smartphone,549,54.9,603.9
21,2022-08-06,Client A,Headphones,170,17.0,187.0
1,2022-08-01,Client B,Smartphone,549,54.9,603.9


### Lo mismo pero del último al primero pororden alfabético

In [18]:
df.sort_values(by="Client", ascending=False).head(6)

Unnamed: 0,Date,Client,Product,Net Price,Sales Tax,Gross Price
18,2022-08-05,Client H,Notebook,709,70.9,779.9
8,2022-08-03,Client H,Smartphone,549,54.9,603.9
22,2022-08-06,Client G,PC,650,65.0,715.0
4,2022-08-02,Client G,Headphones,170,17.0,187.0
15,2022-08-04,Client G,Microphone,98,9.8,107.8
23,2022-08-06,Client F,Webcam,33,3.3,36.3


### Filtrar valores también es muy fácil

### Si queremos filtrar por el nombre de un cliente

In [20]:
df[df["Client"] == "Client D"].head(5)

Unnamed: 0,Date,Client,Product,Net Price,Sales Tax,Gross Price
5,2022-08-02,Client D,Notebook,709,70.9,779.9
11,2022-08-03,Client D,Keyboard,159,15.9,174.9
16,2022-08-05,Client D,Webcam,33,3.3,36.3
26,2022-08-07,Client D,Led ring,31,3.1,34.1


### O mas de un nombre

In [38]:
df[(df["Client"] == "Client D") | (df["Client"] == "Client E") | (df["Client"] == "Client H")].head(6)

Unnamed: 0,Date,Client,Product,Net Price,Sales Tax,Gross Price
5,2022-08-02,Client D,Notebook,709,70.9,779.9
7,2022-08-02,Client E,Smartphone,549,54.9,603.9
8,2022-08-03,Client H,Smartphone,549,54.9,603.9
11,2022-08-03,Client D,Keyboard,159,15.9,174.9
16,2022-08-05,Client D,Webcam,33,3.3,36.3
18,2022-08-05,Client H,Notebook,709,70.9,779.9


### También puedo utilizar una condición

In [28]:
df[df["Gross Price"] > 500].head(5)

Unnamed: 0,Date,Client,Product,Net Price,Sales Tax,Gross Price
1,2022-08-01,Client B,Smartphone,549,54.9,603.9
5,2022-08-02,Client D,Notebook,709,70.9,779.9
6,2022-08-02,Client A,Smartphone,549,54.9,603.9
7,2022-08-02,Client E,Smartphone,549,54.9,603.9
8,2022-08-03,Client H,Smartphone,549,54.9,603.9


### Si quisiéramos saber cuáles son los productos que comercializamos tenemos que buscar los valores únicos de la columna 

In [29]:
df["Product"].unique()

array(['Led TV', 'Smartphone', 'Blender', 'Hair dryer', 'Headphones',
       'Notebook', 'Trimmer', 'Juicer', 'Keyboard', 'Led ring',
       'Microphone', 'Webcam', 'PC', 'Tablet', 'Mouse'], dtype=object)

### Y para saber cuántos vendimos de cada uno tenemos que contar la cantidad de veces que se repiten

In [30]:
df["Product"].value_counts()

Smartphone    4
Notebook      4
Webcam        3
Led TV        2
Headphones    2
Keyboard      2
Led ring      2
PC            2
Blender       1
Hair dryer    1
Trimmer       1
Juicer        1
Microphone    1
Tablet        1
Mouse         1
Name: Product, dtype: int64

### Supongamos que ahora querer saber, por ejemplo, cuanto gastó cada cliente. Para eso vamos a agrupar por cliente, ordenarlos, y sumar cuanto gastó cada uno

In [36]:
df.groupby(by="Client", as_index=False).sum().sort_values(by="Client")

Unnamed: 0,Client,Net Price,Sales Tax,Gross Price
0,Client A,1854,185.4,2039.4
1,Client B,1391,139.1,1530.1
2,Client C,345,34.5,379.5
3,Client D,932,93.2,1025.2
4,Client E,1288,128.8,1416.8
5,Client F,221,22.1,243.1
6,Client G,918,91.8,1009.8
7,Client H,1258,125.8,1383.8


### Y con esto es suficiente por ahora. Nos vemos en el próximo post!