## Filtrado de Datos

Nos permite concentrarnos en subconjuntos relevantes basándose en condiciones específicas. Imagina que puedes centrarte únicamente en las ventas de un país determinado, evaluar productos que superen un umbral de ventas, o analizar transacciones dentro de un período de tiempo concreto. Todo esto es posible con el filtrado de datos en Pandas, una poderosa librería de Python.

In [3]:
from google.colab import drive

drive.mount('/content/drive')
file_path = "/content/drive/MyDrive/Colab Notebooks/online_retail.csv"

sales_data = pd.read_csv(file_path)
print(sales_data.head())

Mounted at /content/drive
  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

           InvoiceDate  UnitPrice  CustomerID         Country  
0  2010-12-01 08:26:00       2.55     17850.0  United Kingdom  
1  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
2  2010-12-01 08:26:00       2.75     17850.0  United Kingdom  
3  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
4  2010-12-01 08:26:00       3.39     17850.0  United Kingdom  


In [4]:
import pandas as pd

#Convertimos la columna 'InvoiceData' a tipo datatime, para poder filtrar por años, meses o dias
sales_data['InvoiceDate'] = pd.to_datetime(sales_data['InvoiceDate'])

#Eliminar filas con valores faltantes en las columnas criticas
sales_data.dropna(subset=['CustomerID', 'Description'], inplace=True)

#Crear una nueva columna 'TotalPrice'
sales_data['TotalPrice'] = sales_data['Quantity'] * sales_data['UnitPrice']

print(sales_data)


       InvoiceNo StockCode                          Description  Quantity  \
0         536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1         536365     71053                  WHITE METAL LANTERN         6   
2         536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3         536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4         536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   
...          ...       ...                                  ...       ...   
541904    581587     22613          PACK OF 20 SPACEBOY NAPKINS        12   
541905    581587     22899         CHILDREN'S APRON DOLLY GIRL          6   
541906    581587     23254        CHILDRENS CUTLERY DOLLY GIRL          4   
541907    581587     23255      CHILDRENS CUTLERY CIRCUS PARADE         4   
541908    581587     22138        BAKING SET 9 PIECE RETROSPOT          3   

               InvoiceDate  UnitPrice  CustomerID         Country  TotalPri

Filtrar ventas en el UK:

In [5]:
uk_sales = sales_data[sales_data['Country'] == 'United Kingdom']
print(uk_sales)

       InvoiceNo StockCode                          Description  Quantity  \
0         536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1         536365     71053                  WHITE METAL LANTERN         6   
2         536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3         536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4         536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   
...          ...       ...                                  ...       ...   
541889    581585     22466       FAIRY TALE COTTAGE NIGHT LIGHT        12   
541890    581586     22061  LARGE CAKE STAND  HANGING STRAWBERY         8   
541891    581586     23275     SET OF 3 HANGING OWLS OLLIE BEAK        24   
541892    581586     21217        RED RETROSPOT ROUND CAKE TINS        24   
541893    581586     20685                DOORMAT RED RETROSPOT        10   

               InvoiceDate  UnitPrice  CustomerID         Country  TotalPri

In [7]:
high_quantity_sales = sales_data[sales_data['Quantity'] > 40]
print(high_quantity_sales)

       InvoiceNo StockCode                         Description  Quantity  \
31        536370     10002         INFLATABLE POLITICAL GLOBE         48   
46        536371     22086     PAPER CHAIN KIT 50'S CHRISTMAS         80   
82        536376     22114   HOT WATER BOTTLE TEA AND SYMPATHY        48   
83        536376     21733    RED HANGING HEART T-LIGHT HOLDER        64   
96        536378     21212     PACK OF 72 RETROSPOT CAKE CASES       120   
...          ...       ...                                 ...       ...   
541746    581571     23167      SMALL CERAMIC TOP STORAGE JAR         96   
541747    581571     21314       SMALL GLASS HEART TRINKET POT        48   
541751    581572     23328  SET 6 SCHOOL MILK BOTTLES IN CRATE        48   
541867    581584     20832    RED FLOCK LOVE HEART PHOTO FRAME        72   
541868    581584     85038     6 CHOCOLATE LOVE HEART T-LIGHTS        48   

               InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  
31     

In [10]:
# Para evaluar ambas filtraciones: Por pais y por condicional
uk_high_quantity_sales = sales_data[(sales_data['Country'] == 'United Kingdom') &
                                    (sales_data['Quantity'] > 1000)]
print(uk_high_quantity_sales)

       InvoiceNo StockCode                        Description  Quantity  \
4850      536809     84950     ASSORTED COLOUR T-LIGHT HOLDER      1824   
4945      536830     84077  WORLD WAR 2 GLIDERS ASSTD DESIGNS      2880   
4946      536830     21915             RED  HARMONICA IN BOX       1400   
16435     537659     22189            CREAM HEART CARD HOLDER      1008   
16436     537659     22188            BLACK HEART CARD HOLDER      1008   
...          ...       ...                                ...       ...   
521375    580363     23582       VINTAGE DOILY JUMBO BAG RED       1500   
533812    581115     22413    METAL SIGN TAKE IT OR LEAVE IT       1404   
540070    581458     22197                     POPCORN HOLDER      1500   
540071    581459     22197                     POPCORN HOLDER      1200   
540421    581483     23843        PAPER CRAFT , LITTLE BIRDIE     80995   

               InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  
4850   2010-12-02 1

# Filtracion por año

In [11]:
sales_2011 = sales_data[sales_data['InvoiceDate'].dt.year == 2011]
print(sales_2011)

       InvoiceNo StockCode                      Description  Quantity  \
42481     539993     22386          JUMBO BAG PINK POLKADOT        10   
42482     539993     21499               BLUE POLKADOT WRAP        25   
42483     539993     21498              RED RETROSPOT WRAP         25   
42484     539993     22379         RECYCLING BAG RETROSPOT          5   
42485     539993     20718        RED RETROSPOT SHOPPER BAG        10   
...          ...       ...                              ...       ...   
541904    581587     22613      PACK OF 20 SPACEBOY NAPKINS        12   
541905    581587     22899     CHILDREN'S APRON DOLLY GIRL          6   
541906    581587     23254    CHILDRENS CUTLERY DOLLY GIRL          4   
541907    581587     23255  CHILDRENS CUTLERY CIRCUS PARADE         4   
541908    581587     22138    BAKING SET 9 PIECE RETROSPOT          3   

               InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  
42481  2011-01-04 10:00:00       1.95     1

In [12]:
sales_2010 = sales_data[sales_data['InvoiceDate'].dt.year == 2010]
print(sales_2010)

      InvoiceNo StockCode                          Description  Quantity  \
0        536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1        536365     71053                  WHITE METAL LANTERN         6   
2        536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3        536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4        536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   
...         ...       ...                                  ...       ...   
42448    539988     84380    SET OF 3 BUTTERFLY COOKIE CUTTERS         1   
42449    539988    84849D                HOT BATHS SOAP HOLDER         1   
42450    539988    84849B               FAIRY SOAP SOAP HOLDER         1   
42451    539988     22854          CREAM SWEETHEART EGG HOLDER         2   
42452    539988    47559B                  TEA TIME OVEN GLOVE         2   

              InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  
0     20

In [17]:
sales_december_2010 = sales_data[(sales_data['InvoiceDate'].dt.year == 2010) &
                                 (sales_data['InvoiceDate'].dt.month == 12)]
print(sales_december_2010)

      InvoiceNo StockCode                          Description  Quantity  \
0        536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1        536365     71053                  WHITE METAL LANTERN         6   
2        536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3        536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4        536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   
...         ...       ...                                  ...       ...   
42448    539988     84380    SET OF 3 BUTTERFLY COOKIE CUTTERS         1   
42449    539988    84849D                HOT BATHS SOAP HOLDER         1   
42450    539988    84849B               FAIRY SOAP SOAP HOLDER         1   
42451    539988     22854          CREAM SWEETHEART EGG HOLDER         2   
42452    539988    47559B                  TEA TIME OVEN GLOVE         2   

              InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  
0     20

## Pivot Table

Las Pivot Tables son una herramienta que nos permite resumir y reorganizar columnas de datos crudos de un DataFrame de pandas. Gracias a ellas, podemos realizar cálculos estadísticos comunes como sumas, conteos y promedios, ayudándonos a descubrir patrones ocultos y obtener insights valiosos de nuestros datos originales.

¿Cómo crear una Pivot Table?
Para crear una Pivot Table en pandas, debes seguir un proceso estructurado, especificando varios parámetros clave. Veamos cómo hacerlo paso a paso.

¿Cómo pasar la información al DataFrame?

El primer paso es definir el DataFrame que vamos a utilizar. Luego, especificaremos las columnas y los índices que deseamos tener en nuestra Pivot Table.

1. DataFrame inicial: Debemos tener un DataFrame con los datos que queremos analizar.
2. Columna de valores: Definimos la columna cuyo cálculo estadístico queremos realizar (por ejemplo, 'cantidad').
3. Índice: En lugar de usar un índice posicional (como 0, 1, 2), se puede utilizar una de las columnas como índice. Por ejemplo, 'country'.
4. Columnas: Incluir las columnas que deseas evaluar, como los 'stock codes'.
5. Función de cálculo: Determina la función que aplicarás, como la suma, para mostrar las sumatorias totales en el índice.

In [20]:
pivot_table = pd.pivot_table(sales_data, values = 'Quantity', index = 'Country', columns = 'StockCode', aggfunc = ['sum', 'mean'])
print(pivot_table)

                        sum                                                    \
StockCode             10002  10080  10120 10123C 10124A 10124G  10125   10133   
Country                                                                         
Australia               NaN    NaN    NaN    NaN    NaN    NaN    NaN     NaN   
Austria                 NaN    NaN    NaN    NaN    NaN    NaN    NaN     NaN   
Bahrain                 NaN    NaN    NaN    NaN    NaN    NaN    NaN     NaN   
Belgium                 NaN    NaN    NaN    NaN    NaN    NaN    NaN     NaN   
Brazil                  NaN    NaN    NaN    NaN    NaN    NaN    NaN     NaN   
Canada                  NaN    NaN    NaN    NaN    NaN    NaN    NaN    40.0   
Channel Islands         NaN    NaN    NaN    NaN    NaN    NaN    NaN     NaN   
Cyprus                  NaN    NaN    NaN    NaN    NaN    NaN    NaN     NaN   
Czech Republic          NaN    NaN    NaN    NaN    NaN    NaN    NaN     NaN   
Denmark                 NaN 

# ¿Cómo apilar y desapilar datos en DataFrames?

El apilamiento y desapilamiento de datos son técnicas útiles cuando necesitas cambiar la estructura de tu DataFrame para análisis más profundos o para ajustar la presentación de la información.

In [26]:
df = pd.DataFrame({
    'A' : ['foo', 'bar', 'foo', 'bar', 'foo'],
    'B' : [1, 2, 3, 5, 1],
    'C' : [1, 2, 3, 4, 5]
})
print(df)

     A  B  C
0  foo  1  1
1  bar  2  2
2  foo  3  3
3  bar  5  4
4  foo  1  5


El método stack convierte el índice de un DataFrame en una columna, apilando los datos.

In [27]:
df_stack = df.stack()
print(df_stack)

0  A    foo
   B      1
   C      1
1  A    bar
   B      2
   C      2
2  A    foo
   B      3
   C      3
3  A    bar
   B      5
   C      4
4  A    foo
   B      1
   C      5
dtype: object


El unstack hace el proceso contrario al stack, transformando columnas en índices.

In [28]:
df_unstack = df.unstack()
print(df_unstack)

A  0    foo
   1    bar
   2    foo
   3    bar
   4    foo
B  0      1
   1      2
   2      3
   3      5
   4      1
C  0      1
   1      2
   2      3
   3      4
   4      5
dtype: object
