# **Pandas**

## Agrupar Datos: GroupBy

La función groupby() de Pandas es una potente herramienta utilizada para dividir un DataFrame en grupos basados en una o más columnas, permitiendo un análisis y agregación de datos eficiente.

Sigue una estrategia de «dividir-aplicar-combinar», en la que los datos se dividen en grupos, se aplica una función a cada grupo y los resultados se combinan en un nuevo DataFrame. Por ejemplo, si tiene un conjunto de datos de transacciones de ventas, puede utilizar groupby() para agrupar los datos por categoría de producto y calcular las ventas totales de cada categoría.

### 0. Importar librerías

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from tabulate import tabulate

### 1. Cargar conjunto de datos

In [None]:
## Esta celda se ejecuta si este notebook se ejecuta den Google Colab

from google.colab import drive
drive.mount('/gdrive')

In [None]:
# Se va a utilizar el conjunto de datos titanic
# https://www.kaggle.com/c/titanic/data?select=train.csv

df = pd.read_csv('/gdrive/MyDrive/Programming/Datasets/titanic.csv')

In [6]:
# Se va a utilizar el conjunto de datos titanic
# Ejecuta si se tiene el archivo localmente

df = pd.read_csv('datasets/titanic.csv')

In [7]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Análisis Exploratorio Básico

In [8]:
df.shape

(891, 12)

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [10]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Agrupando por una columna

In [11]:
group_genero = df.groupby('Sex')

In [12]:
print(type(group_genero))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [13]:
## El atributo groups entrega la información de los grupos creados

group_genero.groups

{'female': [1, 2, 3, 8, 9, 10, 11, 14, 15, 18, 19, 22, 24, 25, 28, 31, 32, 38, 39, 40, 41, 43, 44, 47, 49, 52, 53, 56, 58, 61, 66, 68, 71, 79, 82, 84, 85, 88, 98, 100, 106, 109, 111, 113, 114, 119, 123, 128, 132, 133, 136, 140, 141, 142, 147, 151, 156, 161, 166, 167, 172, 177, 180, 184, 186, 190, 192, 194, 195, 198, 199, 205, 208, 211, 215, 216, 218, 229, 230, 233, 235, 237, 240, 241, 246, 247, 251, 254, 255, 256, 257, 258, 259, 264, 268, 269, 272, 274, 275, 276, ...], 'male': [0, 4, 5, 6, 7, 12, 13, 16, 17, 20, 21, 23, 26, 27, 29, 30, 33, 34, 35, 36, 37, 42, 45, 46, 48, 50, 51, 54, 55, 57, 59, 60, 62, 63, 64, 65, 67, 69, 70, 72, 73, 74, 75, 76, 77, 78, 80, 81, 83, 86, 87, 89, 90, 91, 92, 93, 94, 95, 96, 97, 99, 101, 102, 103, 104, 105, 107, 108, 110, 112, 115, 116, 117, 118, 120, 121, 122, 124, 125, 126, 127, 129, 130, 131, 134, 135, 137, 138, 139, 143, 144, 145, 146, 148, 149, 150, 152, 153, 154, 155, ...]}

In [14]:
## Se puede usar el atriburo ngroups para saber el número de grupos.

print(group_genero.ngroups)

2


In [15]:
## Se puede conocer el tamaño de cada uno de los grupos creados

group_genero.size()

Sex
female    314
male      577
dtype: int64

In [16]:
## Se puede acceder a cada grupo

df_female = group_genero.get_group('female')
print(type(df_female))

<class 'pandas.core.frame.DataFrame'>


In [17]:
df_female.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0,,S


In [18]:
df_male = group_genero.get_group('male')
print(type(df_male))

<class 'pandas.core.frame.DataFrame'>


In [None]:
df_male.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


### Pregunta 1:

¿Porcentaje de hombres y mujeres que sobrevivieron?

In [21]:
# Calcular cantidad de hombres
# Calcular cantidad de hombre que sobrevivieron
# Calcular porcentaje

num_h = df[df['Sex']=='male'].shape[0]
num_h_s = df[(df['Sex']=='male') & (df['Survived']==1)].shape[0]
print(f"El porcentaje de hombres que sobrevivió es: {num_h_s/num_h*100:.2f}%")

El porcentaje de hombres que sobrevivió es: 18.89%


In [22]:
# Calcular cantidad de mujeres
# Calcular cantidad de mujeres que sobrevivieron
# Calcular porcentaje

num_m = df[df['Sex']=='female'].shape[0]
num_m_s = df[(df['Sex']=='female') & (df['Survived']==1)].shape[0]
print(f"El porcentaje de hombres que sobrevivió es: {num_m_s/num_m*100:.2f}%")

El porcentaje de hombres que sobrevivió es: 74.20%


### Ahora vamos a usar groupby()

In [23]:
# Calcular el porcentaje de sobrevivientes por género
total_by_gender = df.groupby("Sex").size()
survivors_by_gender = df.groupby("Sex")["Survived"].sum()
percentage_survived = ((survivors_by_gender / total_by_gender) * 100).round(2)

# Mostrar el resultado
print(f"Sobrevivientes por género:\n{percentage_survived}")

Sobrevivientes por género:
Sex
female    74.20
male      18.89
dtype: float64


### Agrupando por dos columnas

In [24]:
df_g2 = df.groupby(['Sex', 'Survived'])
df_g2.size()

Sex     Survived
female  0            81
        1           233
male    0           468
        1           109
dtype: int64

In [25]:
## Se puede determinar el tipo de dato del agrupamiento

print(type(df_g2))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [26]:
## Se puede acceder a los valores del agrupamiento

df_g2.size().values

array([ 81, 233, 468, 109])

In [27]:
## Se puede usar este agrupamiento para hacer otros cálculos

df_g2 = df.groupby(['Sex', 'Survived'])['Age'].mean().round(2)
print(df_g2)

Sex     Survived
female  0           25.05
        1           28.85
male    0           31.62
        1           27.28
Name: Age, dtype: float64


In [28]:
## Podemos hacer múltiples cálculos usando el método agg()

df_g2 = df.groupby(['Sex', 'Survived']).agg(
    
    min_age = ('Age','min'),
    average_age = ('Age','mean'),
    max_age = ('Age','max')
).round(2)

print(df_g2)

                 min_age  average_age  max_age
Sex    Survived                               
female 0            2.00        25.05     57.0
       1            0.75        28.85     63.0
male   0            1.00        31.62     74.0
       1            0.42        27.28     80.0


### Pregunta 2:

¿Cuál es el promedio de edad de los hombres?

¿Cuál es el promedio de edad de las mujeres?

In [29]:
df.groupby(['Sex'])['Age'].mean().round(2)

Sex
female    27.92
male      30.73
Name: Age, dtype: float64

### Pregunta 3:

¿Cuál es el promedio de edad de los hombres que sobrevivieron y que no sobrevivieron?

### Pregunta 4:

¿Cuál es el promedio de edad de mujeres que sobrevivieron y que no sobrevivieron?

### Pregunta 5:

¿Porcentaje de hombres y mujeres que sobrevivieron por clase?

In [30]:
serie_3 = df.groupby(['Sex', 'Survived', 'Pclass']).size()
print(serie_3)

Sex     Survived  Pclass
female  0         1           3
                  2           6
                  3          72
        1         1          91
                  2          70
                  3          72
male    0         1          77
                  2          91
                  3         300
        1         1          45
                  2          17
                  3          47
dtype: int64


In [31]:
serie_4 = df.groupby(['Sex','Pclass']).size()
print(serie_4)

Sex     Pclass
female  1          94
        2          76
        3         144
male    1         122
        2         108
        3         347
dtype: int64


In [32]:
## Porcentaje de mujeres que sobrevivieron viajando en primera clase

print(f'{100 * serie_3["female",1,1]/serie_4["female",1]:.2f}')

96.81


In [33]:
# porcentaje de hombres que sobrevivieron viajando en tercera clase

print(f'{100 * serie_3["male",1,3]/serie_4["male",3]:.2f}')

13.54


## **Ejercicio**

1. Cargue el conjunto de datos Dummy_Sales_Data.csv

In [34]:
df2 = pd.read_csv("datasets/Dummy_Sales_Data.csv")

2. Haga un Análisis Exploratorio Básico

In [39]:
df2.shape

(9999, 13)

In [42]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9999 entries, 0 to 9998
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   OrderID              9999 non-null   int64  
 1   Quantity             9999 non-null   int64  
 2   UnitPrice(USD)       9999 non-null   int64  
 3   Status               9999 non-null   object 
 4   OrderDate            9999 non-null   object 
 5   Product_Category     9963 non-null   object 
 6   Sales_Manager        9999 non-null   object 
 7   Shipping_Cost(USD)   9999 non-null   int64  
 8   Delivery_Time(Days)  9948 non-null   float64
 9   Shipping_Address     9999 non-null   object 
 10  Product_Code         9999 non-null   object 
 11  OrderCode            9999 non-null   int64  
 12  total_ventas(USD)    9999 non-null   int64  
dtypes: float64(1), int64(6), object(6)
memory usage: 1015.7+ KB


In [41]:
df2.head(10)

Unnamed: 0,OrderID,Quantity,UnitPrice(USD),Status,OrderDate,Product_Category,Sales_Manager,Shipping_Cost(USD),Delivery_Time(Days),Shipping_Address,Product_Code,OrderCode,total_ventas(USD)
0,2951110000999929511,92,238,Not Delivered,2021-08-08,Healthcare,Pablo,21,25.0,Singapore,HC-188,444116,21896
1,2181910000999921819,61,136,Not Delivered,2021-10-03,Office,Pablo,34,14.0,UK,O-555,444772,8296
2,3239110000999932391,67,235,Not Delivered,2021-09-27,Office,Kristen,25,11.0,Kenya,O-188,444666,15745
3,1112610000999911126,33,133,Not Shipped,2021-07-30,Fashion,Abdul,34,24.0,USA,F-555,444007,4389
4,1548310000999915483,13,189,Not Delivered,2021-08-15,Fashion,Stella,24,19.0,Kenya,F-555,444223,2457
5,4934810000999949348,51,204,Not Delivered,2021-11-13,Entertainment,Abdul,32,18.0,UK,ENT-188,445113,10404
6,2750410000999927504,73,242,Not Delivered,2021-07-08,Healthcare,Emma,34,10.0,UK,HC-555,443885,17666
7,4797510000999947975,48,240,Delivered,2021-10-04,Fashion,Abdul,22,21.0,Kenya,F-203,444773,11520
8,2804110000999928041,31,163,Not Shipped,2021-12-23,Fashion,Abdul,34,16.0,Kenya,F-901,445553,5053
9,1735910000999917359,62,214,Not Delivered,2021-08-14,Fashion,John,22,17.0,Germany,F-901,444222,13268


### Pregunta 1:

¿Cuál es el total de ventas en dolares por cada uno de los tipos de producto?

- Paso 1: Calcular el total de cada una de las ventas.
- Paso 2: Vamos a almacenar el total de las ventas en un nueva columna total_ventas
- Paso 3: Vamos a agrupar por tipo de porducto y vamos a calcular el total de ventas por ese tipo de producto

In [43]:
## Paso 1
valor_total = df2['UnitPrice(USD)'] * df2['Quantity']
print(valor_total)

0       21896
1        8296
2       15745
3        4389
4        2457
        ...  
9994    15075
9995     4995
9996    16767
9997     2106
9998    12137
Length: 9999, dtype: int64


In [44]:
df2.describe()

Unnamed: 0,OrderID,Quantity,UnitPrice(USD),Shipping_Cost(USD),Delivery_Time(Days),OrderCode,total_ventas(USD)
count,9999.0,9999.0,9999.0,9999.0,9948.0,9999.0,9999.0
mean,3.020951e+18,50.739874,175.620662,27.571857,17.518396,444682.917392,8900.936994
std,1.167549e+18,29.005532,43.527995,4.610452,4.609531,525.343171,5672.38895
min,1.01001e+18,1.0,100.0,20.0,10.0,443880.0,100.0
25%,2.01041e+18,26.0,138.0,24.0,14.0,444222.0,4219.0
50%,3.00241e+18,51.0,176.0,28.0,18.0,444772.0,8352.0
75%,4.02451e+18,76.0,213.0,32.0,22.0,445113.0,12764.0
max,5.04961e+18,100.0,250.0,35.0,25.0,445660.0,25000.0


In [37]:
## Paso 2

df2['total_ventas(USD)'] = valor_total
df2.head()

Unnamed: 0,OrderID,Quantity,UnitPrice(USD),Status,OrderDate,Product_Category,Sales_Manager,Shipping_Cost(USD),Delivery_Time(Days),Shipping_Address,Product_Code,OrderCode,total_ventas(USD)
0,2951110000999929511,92,238,Not Delivered,2021-08-08,Healthcare,Pablo,21,25.0,Singapore,HC-188,444116,21896
1,2181910000999921819,61,136,Not Delivered,2021-10-03,Office,Pablo,34,14.0,UK,O-555,444772,8296
2,3239110000999932391,67,235,Not Delivered,2021-09-27,Office,Kristen,25,11.0,Kenya,O-188,444666,15745
3,1112610000999911126,33,133,Not Shipped,2021-07-30,Fashion,Abdul,34,24.0,USA,F-555,444007,4389
4,1548310000999915483,13,189,Not Delivered,2021-08-15,Fashion,Stella,24,19.0,Kenya,F-555,444223,2457


In [46]:
df2['Shipping_Address'].value_counts()

Shipping_Address
Singapore    1279
Kenya        1272
USA          1272
India        1260
China        1260
Germany      1227
UK           1222
Italy        1207
Name: count, dtype: int64

In [48]:
## Paso 3

df2_gb = df2.groupby(['Product_Category'])['total_ventas(USD)'].sum().sort_values(ascending=False)
print(df2_gb)


Product_Category
Home             18342336
Office           17950480
Fashion          17801735
Healthcare       17388189
Entertainment    17181377
Name: total_ventas(USD), dtype: int64


### Pregunta 2:

¿Cuántos productos se están vendiento por categoría?

In [50]:
df2.groupby('Product_Category')['Quantity'].sum().sort_values(ascending=False)

Product_Category
Home             104453
Office           102387
Fashion          101024
Healthcare        99418
Entertainment     98107
Name: Quantity, dtype: int64

### Pregunta 3:

¿Cuál es el sales_manager que más ventas ha realizado?

In [67]:
# Agrupar por Sales_Manager y sumar la cantidad
ventas_por_manager = df2.groupby("Sales_Manager")["Quantity"].sum()

# Ordenar de mayor a menor
ventas_ordenadas = ventas_por_manager.sort_values(ascending=False)

# Mostrar el que más ventas ha realizado
manager_top = ventas_ordenadas.head(1)
print("Sales manager con más ventas:")
print(manager_top)

Sales manager con más ventas:
Sales_Manager
John    53727
Name: Quantity, dtype: int64


### Pregunta 4:

¿Qué tipo de producto es el más vendido por cada uno de los sales manager?

In [63]:
# Agrupar por sales_manager y producto, sumar ventas
ventas_por_manager_producto = df2.groupby(["Sales_Manager", "Product_Category"])["Quantity"].sum()

# Mostrar todos los productos con sus ventas por cada sales_manager
print("Ventas por sales_manager y producto:")
print(ventas_por_manager_producto)

Ventas por sales_manager y producto:
Sales_Manager  Product_Category
Abdul          Entertainment       10842
               Fashion             10816
               Healthcare          10336
               Home                 8888
               Office               8814
Anthony        Entertainment       10028
               Fashion             10532
               Healthcare          10343
               Home                10207
               Office              10753
Emma           Entertainment       10878
               Fashion              9518
               Healthcare           8883
               Home                11416
               Office              11967
Jacob          Entertainment        9584
               Fashion              9604
               Healthcare           9610
               Home                10431
               Office              10051
John           Entertainment        9775
               Fashion             12033
               Healthcare    

### Pregunta 5:

¿Cuál es el destino con la mayor cantidad de ventas?

In [None]:
# Agrupar por destino y sumar ventas
ventas_por_destino = df2.groupby('Shipping_Address')['total_ventas(USD)'].sum()

# Ordenar de mayor a menor y seleccionar el primero
destino_top = ventas_por_destino.sort_values(ascending=False).index[0]
ventas_top = ventas_por_destino.sort_values(ascending=False).iloc[0]

print(f"Destino con mayor ventas: {destino_top} (${ventas_top:,.2f} USD)")

Destino con mayor ventas: Singapore ($11,480,596.00 USD)


### Pregunta 6:

¿Cuál es el promedio de ventas (total_ventas(USD)) por categoría de producto?

In [73]:
# Agrupar por categoría de producto y calcular el promedio de ventas
promedio_ventas_categoria = df2.groupby("Product_Category")["total_ventas(USD)"].mean()

# Ordenar de mayor a menor (opcional, si está permitido sort_values)
promedio_ventas_categoria = promedio_ventas_categoria.sort_values(ascending=False)

# Mostrar resultados
print("Promedio de ventas por categoría de producto:")
print(promedio_ventas_categoria)

Promedio de ventas por categoría de producto:
Product_Category
Fashion          9031.829021
Office           8926.146196
Home             8904.046602
Healthcare       8903.322581
Entertainment    8730.374492
Name: total_ventas(USD), dtype: float64


### Pregunta 7:

Para cada categoría de producto, ¿cuál fue la venta mínima, la venta máxima y el promedio de ventas (total_ventas(USD))?

In [72]:
# Agrupar por categoría de producto y calcular mínimo, promedio y máximo de ventas
resumen_ventas = df2.groupby("Product_Category").agg(
    venta_minima = ("total_ventas(USD)", "min"),
    venta_promedio = ("total_ventas(USD)", "mean"),
    venta_maxima = ("total_ventas(USD)", "max")
).round(2)

print("Resumen de ventas por categoría de producto:")
print(resumen_ventas)


Resumen de ventas por categoría de producto:
                  venta_minima  venta_promedio  venta_maxima
Product_Category                                            
Entertainment              100         8730.37         24900
Fashion                    113         9031.83         24400
Healthcare                 106         8903.32         25000
Home                       113         8904.05         24255
Office                     106         8926.15         24900
