# Pandas

Pandas es una herramienta muy útil para manejar y analizar datos. Nos permite trabajar con tablas y nos permite hacer cosas similares a cuando trabajamos en excel, pero con código en lugar de manualmente en una hoja de cálculo. Se trata de un paquete diseñado para manejar, limpiar y analizar datos de una forma tanto intuitiva como poderosa.

Las principales ventajas de usar Pandas son:

- Manejo de datos estructurados: Pandas proporciona una forma tabular de almacenar y trabajar con los datos, muy similar a las hojas de cálculo.
- Flexibilidad: Los dataframes pueden manejar datos de distintos tipos, incluyendo texto, fecha o numerico.
- Facilidad para importar y exportar datos: Pandas puede leer datos de distintos tipos de formatos como csv, excel, SQL, JSON...Tambien se pueden escribir los datos de vuelta en esos mismos formatos.
- Tratamiento de datos: Pandas proporciona funciones para manejar datos faltantes, borrar duplicados y procesar los datos en general.
- Uso de la memoria eficiente: Pandas está diseñado para optimizar el uso de la memoria, por lo que puede trabajar con grandes conjuntos de datos.

Los principales conceptos que se deben conocer en pandas son:

- Series: Es una columna de datos del dataframe.
- DataFrame: Un DataFrame es una tabla completa.



In [1]:
import pandas as pd
import numpy as np

# Generamos nuestro dataframe desde un diccionario
data_json = {'Nombre': ['Ana', 'Luis', 'Carlos'],
        'Edad': [23, 34, 45],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia']}
data = pd.DataFrame(data_json)
print(data)


# Leemos los datos desde un csv
data = pd.read_csv("material/data.csv")
data

   Nombre  Edad     Ciudad
0     Ana    23     Madrid
1    Luis    34  Barcelona
2  Carlos    45   Valencia


Unnamed: 0,order_id,fecha,order_customer_id,product_id,unit_price,quantity,price,product_family,latitude,longitude
0,1016330781887,2023-05-29,6451824076,IAM925P00XXZPUDIA,19.00,8,152.00,Pulsera,37.788617,-3.790215
1,1095376438463,2023-07-16,664062345899,OTS925P00XXZPUDOT,19.00,6,114.00,Pulsera,40.299542,-3.926774
2,1047641588927,2023-06-17,642133246635,UND925P00XXZCOMUN,25.00,5,125.00,Collar,39.651927,-0.411277
3,1181322118257,2023-08-29,714672128644,OTS925A00XXZPUDOT,19.00,4,76.00,Pulsera,39.456511,-0.346203
4,1017492866239,2023-05-30,196440539724,IMO925P00XXZTOMIM,25.00,3,75.00,Tobillera,37.394171,-5.957857
...,...,...,...,...,...,...,...,...,...,...
2995,1194025288817,2023-09-04,719590867588,IST925P00XXZPUSIS,29.95,1,29.95,Pulsera,40.405862,-3.894836
2996,1187671966833,2023-09-01,719629009540,UND925P00XXZCOMUN,25.00,1,25.00,Collar,40.549157,-3.653147
2997,1187874473073,2023-09-01,719731344004,OSE925R00XXZCOMOS,29.00,1,29.00,Collar,43.341313,-2.989285
2998,1187874473073,2023-09-01,719731344004,HDI925R00XXZPEAHD,21.75,1,21.75,Pendientes,43.341313,-2.989285


In [3]:
# Informacion del dataframe

print(f"Informacion del dataframe:\n {data.info()}\n")
print(f"Descripcion de las columnas:\n {data.describe()}\n")
print(f"Columnas del datafreme:\n {data.columns}")
print(f"Numero de filas del dataframe:\n {len(data)}")
print(f"Dimension del dataframe:\n {data.shape}")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   order_id           3000 non-null   int64  
 1   fecha              3000 non-null   object 
 2   order_customer_id  3000 non-null   int64  
 3   product_id         3000 non-null   object 
 4   unit_price         3000 non-null   float64
 5   quantity           3000 non-null   int64  
 6   price              3000 non-null   float64
 7   product_family     3000 non-null   object 
 8   latitude           3000 non-null   float64
 9   longitude          3000 non-null   float64
dtypes: float64(4), int64(3), object(3)
memory usage: 234.5+ KB
Informacion del dataframe:
 None

Descripcion de las columnas:
            order_id  order_customer_id   unit_price     quantity        price  \
count  3.000000e+03       3.000000e+03  3000.000000  3000.000000  3000.000000   
mean   9.227223e+11       3

In [5]:
# Ver los productos mas caros
data.sort_values(by=['unit_price'], ascending = [False]).head(10)


Unnamed: 0,order_id,fecha,order_customer_id,product_id,unit_price,quantity,price,product_family,latitude,longitude
1995,992577586367,2023-05-14,613166727851,LIS750A00XXYCOBLI,199.0,1,199.0,Collar,38.369536,-0.457863
2160,1012895974591,2023-05-27,626415125163,LIS750A00XXYCOBLI,199.0,1,199.0,Collar,41.655617,-0.861574
831,1198957855857,2023-09-06,132932289100,N2N925A00XXYCOIN2,69.95,1,69.95,Collar,43.391748,-5.663667
2449,1071430632639,2023-07-02,653428409003,N2N925A00XXYCOIN2,69.0,1,69.0,Collar,36.715902,-4.432735
2411,1066050192575,2023-06-29,651262116523,N2N925P00XXYCOIN2,65.0,1,65.0,Collar,40.78859,-3.489755
2614,1096302986431,2023-07-17,664454480555,N2N925P00XXYCOIN2,65.0,1,65.0,Collar,39.403242,-0.417103
2447,1071430632639,2023-07-02,653428409003,N2N925P00XXYCOIN2,65.0,1,65.0,Collar,36.715902,-4.432735
850,941829784767,2023-04-27,147043107404,U2N925P00XXYPESU2,65.0,1,65.0,Pendientes,39.184379,-0.385224
2302,1039913059519,2023-06-13,638850450091,N2N925P00XXYCOIN2,65.0,1,65.0,Collar,40.476709,-3.687918
2903,1167133443185,2023-08-23,708357931652,N2N925P00XXYCOIN2,65.0,1,65.0,Collar,42.232788,-8.703578


In [6]:
# Seleccionamos una columna por nombre
print(f'Seleccionamos una columna:\n{data["price"]}\n')

# Seleccionamos varias columnas por nombres
# print(f'Seleccionamos varias columna:\n{data[["price", "product_id"]]}\n')

# Seleccionamos columnas de tipo float
# print(f'Seleccionamos columnas por tipo de dato:\n{data.select_dtypes(include=["float64"])}')


Seleccionamos una columna:
0       152.00
1       114.00
2       125.00
3        76.00
4        75.00
         ...  
2995     29.95
2996     25.00
2997     29.00
2998     21.75
2999     21.75
Name: price, Length: 3000, dtype: float64



In [8]:
## Filtrar datos. loc vs iloc

print("\nFiltramos datos por la posicion (indice): \n")
print(data.iloc[0:5])


print("\nFiltramos datos por la etiqueta (columna): \n")
print(data.loc[0:5])

# ¿Cual es la diferencia entre loc e iloc?

# print("\nFiltramos datos por la posicion (indice): \n")
# print(data.iloc[0:5, "order_id"]) #! Esto fallara ya que iloc no puede filtrar por nombre de columna

# print("\nFiltramos datos por la etiqueta (columna): \n")
# print(data.loc[0:5, "order_id"])

# print("\nFiltramos filas por condicion: \n")
# data_quantity_3 = data[data["quantity"] == 3]
# print(data_quantity_3)


# print("\nFiltramos filas por condicion usando loc: \n")
# data_quantity_3 = data.loc[data["quantity"] == 3]
# print(data_quantity_3)


# print("\nFiltramos filas por condicion: \n")
# data.query("quantity == 3")



Filtramos datos por la posicion (indice): 

        order_id       fecha  order_customer_id         product_id  \
0  1016330781887  2023-05-29         6451824076  IAM925P00XXZPUDIA   
1  1095376438463  2023-07-16       664062345899  OTS925P00XXZPUDOT   
2  1047641588927  2023-06-17       642133246635  UND925P00XXZCOMUN   
3  1181322118257  2023-08-29       714672128644  OTS925A00XXZPUDOT   
4  1017492866239  2023-05-30       196440539724  IMO925P00XXZTOMIM   

   unit_price  quantity  price product_family   latitude  longitude  
0        19.0         8  152.0        Pulsera  37.788617  -3.790215  
1        19.0         6  114.0        Pulsera  40.299542  -3.926774  
2        25.0         5  125.0         Collar  39.651927  -0.411277  
3        19.0         4   76.0        Pulsera  39.456511  -0.346203  
4        25.0         3   75.0      Tobillera  37.394171  -5.957857  

Filtramos datos por la etiqueta (columna): 

        order_id       fecha  order_customer_id         product_id  

In [9]:
# Modificar tipo de datos
data["quantity"] = data["quantity"].astype("float")
print(f'Quantity como float:\n{data["quantity"]}\n')

# Modificar datos
data["quantity"] = 1
print(f'Quantity como 1:\n{data["quantity"]}\n')

# Modificar datos con operaciones con otras columnas
data["quantity"] = data["quantity"] + data["price"]
print(f'Quantity como resultado de otras columnas:\n{data["quantity"]}')





Quantity como float:
0       8.0
1       6.0
2       5.0
3       4.0
4       3.0
       ... 
2995    1.0
2996    1.0
2997    1.0
2998    1.0
2999    1.0
Name: quantity, Length: 3000, dtype: float64

Quantity como 1:
0       1
1       1
2       1
3       1
4       1
       ..
2995    1
2996    1
2997    1
2998    1
2999    1
Name: quantity, Length: 3000, dtype: int64

Quantity como resultado de otras columnas:
0       153.00
1       115.00
2       126.00
3        77.00
4        76.00
         ...  
2995     30.95
2996     26.00
2997     30.00
2998     22.75
2999     22.75
Name: quantity, Length: 3000, dtype: float64


*Ejercicio:*
Añadir coste unitario y coste total para cada transaccion con valores aleatorios. El coste unitario debera ser como mucho igual al precio de venta y como poco de 2€.

In [7]:
## Solucion
# Generamos costes unitarios aleatorios
data["unit_cost"] = np.random.normal(10, 4)
# Fijamos los limites superiores e inferiores
data["unit_cost"] = data["unit_cost"].clip(lower = 2, upper = data["unit_price"])
# Calculamos costes totales en base a la cantidad
data["total_cost"] = data["unit_cost"] * data["quantity"]

In [10]:

data.loc[1, "unit_price"] = np.nan

# Detectar valores nulos
print(data.isnull().sum(axis = 0))



# Remplazar nulos por un valor
print(data.fillna(0))


# Eliminar registros con algun valor nulo
# print(data.dropna())


order_id             0
fecha                0
order_customer_id    0
product_id           0
unit_price           1
quantity             0
price                0
product_family       0
latitude             0
longitude            0
dtype: int64
           order_id       fecha  order_customer_id         product_id  \
0     1016330781887  2023-05-29         6451824076  IAM925P00XXZPUDIA   
1     1095376438463  2023-07-16       664062345899  OTS925P00XXZPUDOT   
2     1047641588927  2023-06-17       642133246635  UND925P00XXZCOMUN   
3     1181322118257  2023-08-29       714672128644  OTS925A00XXZPUDOT   
4     1017492866239  2023-05-30       196440539724  IMO925P00XXZTOMIM   
...             ...         ...                ...                ...   
2995  1194025288817  2023-09-04       719590867588  IST925P00XXZPUSIS   
2996  1187671966833  2023-09-01       719629009540  UND925P00XXZCOMUN   
2997  1187874473073  2023-09-01       719731344004  OSE925R00XXZCOMOS   
2998  1187874473073  2023-0

In [11]:
# Agregaciones
# Veremos la media de la variable price
data["price"].mean()

# Veremos cuantos productos ha comprado cada cliente
# data.groupby("order_customer_id")["quantity"].agg("sum")

# Veremos cuantos productos ha comprado y cuanto dinero ha gastado como mucho en un producto cada cliente
# data.groupby("order_customer_id", as_index = False).agg({"quantity":"sum", "price": "max"})

## Ejercicio: ¿Como podemos ver cuanto han gastado como maximo en un pedido cada cliente?

Unnamed: 0,order_customer_id,quantity,price
0,4438242304,134.95,29.95
1,4438303040,56.00,29.00
2,4438358016,26.00,25.00
3,4438388032,72.00,25.00
4,4438411456,78.00,25.00
...,...,...,...
1309,719475556996,78.00,25.00
1310,719567733380,41.25,25.00
1311,719590867588,30.95,29.95
1312,719629009540,26.00,25.00


In [14]:
# Aplicar funciones a lo largo de un dataframe
data["unit_margen"] = data[["unit_price", "unit_cost"]].apply(np.sum, axis=0)


# Aplicar una funcion más compleja con apply
# def calcular_unit_margen(fila):
#     return fila["unit_price"] + fila["unit_cost"]

# data.apply(calcular_unit_margen, axis=1)


# # Aplicar funcion con apply y lambda
# data.apply(lambda fila: fila["unit_price"] + fila["unit_cost"], axis = 1)


Unnamed: 0,0
0,20.00
1,
2,26.00
3,20.00
4,26.00
...,...
2995,30.95
2996,26.00
2997,30.00
2998,22.75


*Ejercicio:* 
Vamos a separar los datos en distintos dataframes: 

- Un dataframe con la información de las orders.
- Un dataframe con la información de los lineitems.



In [9]:
## Solucion

# Solo me interesa la informacion a nivel de order
data_orders = data[['fecha', 'order_customer_id', 'order_id', 'latitude', 'longitude']]
# Me quedo con las orders, sin duplicidades
data_orders = data_orders.drop_duplicates()
data_orders

# Solo me interesa la informacion dentro de la order con la posibilidad de enlazar con la informacion de la order
data_orders_lineitems = data[['order_id','product_id', 'unit_price', 'quantity', 'price', 'product_family', "unit_cost" ]]
data_orders_lineitems

Unnamed: 0,order_id,product_id,unit_price,quantity,price,product_family,unit_cost
0,1016330781887,IAM925P00XXZPUDIA,19.00,8,152.00,Pulsera,6.856942
1,1095376438463,OTS925P00XXZPUDOT,19.00,6,114.00,Pulsera,6.856942
2,1047641588927,UND925P00XXZCOMUN,25.00,5,125.00,Collar,6.856942
3,1181322118257,OTS925A00XXZPUDOT,19.00,4,76.00,Pulsera,6.856942
4,1017492866239,IMO925P00XXZTOMIM,25.00,3,75.00,Tobillera,6.856942
...,...,...,...,...,...,...,...
2995,1194025288817,IST925P00XXZPUSIS,29.95,1,29.95,Pulsera,6.856942
2996,1187671966833,UND925P00XXZCOMUN,25.00,1,25.00,Collar,6.856942
2997,1187874473073,OSE925R00XXZCOMOS,29.00,1,29.00,Collar,6.856942
2998,1187874473073,HDI925R00XXZPEAHD,21.75,1,21.75,Pendientes,6.856942


Existen varias funciones para trabajar con multiples dataframes y operar con ellos para combinar la información. A continuación veremos las principales funciones.

![Union de dataframes](https://pbs.twimg.com/media/FTdBR8SUYAE5myD.jpg)

In [10]:
## Juntar dataframes

# Concat
data_otras_orders = data_orders.head(10)
pd.concat([data_orders, data_otras_orders], axis = 0)

# Merge
pd.merge(data_orders, data_orders_lineitems, on = "order_id")

Unnamed: 0,fecha,order_customer_id,order_id,latitude,longitude,product_id,unit_price,quantity,price,product_family,unit_cost
0,2023-05-29,6451824076,1016330781887,37.788617,-3.790215,IAM925P00XXZPUDIA,19.00,8,152.00,Pulsera,6.856942
1,2023-07-16,664062345899,1095376438463,40.299542,-3.926774,OTS925P00XXZPUDOT,19.00,6,114.00,Pulsera,6.856942
2,2023-07-16,664062345899,1095376438463,40.299542,-3.926774,OTS925P00XXZPUDOT,19.00,3,57.00,Pulsera,6.856942
3,2023-06-17,642133246635,1047641588927,39.651927,-0.411277,UND925P00XXZCOMUN,25.00,5,125.00,Collar,6.856942
4,2023-08-29,714672128644,1181322118257,39.456511,-0.346203,OTS925A00XXZPUDOT,19.00,4,76.00,Pulsera,6.856942
...,...,...,...,...,...,...,...,...,...,...,...
2995,2023-09-04,719590867588,1194025288817,40.405862,-3.894836,IST925P00XXZPUSIS,29.95,1,29.95,Pulsera,6.856942
2996,2023-09-01,719629009540,1187671966833,40.549157,-3.653147,UND925P00XXZCOMUN,25.00,1,25.00,Collar,6.856942
2997,2023-09-01,719731344004,1187874473073,43.341313,-2.989285,OSE925R00XXZCOMOS,29.00,1,29.00,Collar,6.856942
2998,2023-09-01,719731344004,1187874473073,43.341313,-2.989285,HDI925R00XXZPEAHD,21.75,1,21.75,Pendientes,6.856942


Es importante notar que si tenemos información en distintos niveles de agregación y no tenemos cuidado, podemos cometer errores muy graves. Por ejemplo, imaginemos que tenemos un registro por producto y order (nivel lineitem), pero tuviesemos una columna que nos indicase el total de gasto de la order ``total_order`` (nivel order). En este caso, si quisiesemos saber el total de venta, no deberíamos sumar `total_order`, ya que esto duplicaría las ventas.

In [11]:

# ¿Que ocurre si perdemos informacion?
data_orders_lineitems = data_orders_lineitems.head(20)
data_orders = data_orders.head(1000)


# how {‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}, default ‘inner’
pd.merge(data_orders, data_orders_lineitems, on = "order_id")

Unnamed: 0,fecha,order_customer_id,order_id,latitude,longitude,product_id,unit_price,quantity,price,product_family,unit_cost
0,2023-05-29,6451824076,1016330781887,37.788617,-3.790215,IAM925P00XXZPUDIA,19.0,8,152.0,Pulsera,6.856942
1,2023-07-16,664062345899,1095376438463,40.299542,-3.926774,OTS925P00XXZPUDOT,19.0,6,114.0,Pulsera,6.856942
2,2023-07-16,664062345899,1095376438463,40.299542,-3.926774,OTS925P00XXZPUDOT,19.0,3,57.0,Pulsera,6.856942
3,2023-06-17,642133246635,1047641588927,39.651927,-0.411277,UND925P00XXZCOMUN,25.0,5,125.0,Collar,6.856942
4,2023-08-29,714672128644,1181322118257,39.456511,-0.346203,OTS925A00XXZPUDOT,19.0,4,76.0,Pulsera,6.856942
5,2023-05-30,196440539724,1017492866239,37.394171,-5.957857,IMO925P00XXZTOMIM,25.0,3,75.0,Tobillera,6.856942
6,2023-03-27,226613674572,480728843265,38.984944,-3.927849,UDL925P00XXVPUSUD,25.0,3,75.0,Pulsera,6.856942
7,2023-03-10,244904182348,457358836737,40.60451,-4.339488,UND925P00XXZCOMUN,25.0,3,75.0,Collar,6.856942
8,2023-05-21,621451002539,1001207956671,40.804126,0.516218,OTS925P00XXZTODOT,19.0,3,57.0,Tobillera,6.856942
9,2023-06-23,647359906475,1057963181247,41.361692,2.129037,UND925P00XXZCOMUN,25.0,3,75.0,Collar,6.856942


In [12]:
## Otra forma de juntar datos

columns_of_orders = ['fecha', 'order_customer_id', 'order_id', 'latitude', 'longitude']
column_of_order_lineitems = ['product_id', 'unit_price', 'quantity', 'price', 'product_family', "unit_cost"]
data_con_lineitems_nested = data.groupby(columns_of_orders, as_index = False).apply(lambda x: pd.Series({"lineitems":x[column_of_order_lineitems].to_dict(orient='records')}))
data_con_lineitems_nested



Unnamed: 0,fecha,order_customer_id,order_id,latitude,longitude,lineitems
0,2023-03-03,6259589580,446413210625,41.688922,-4.687064,"[{'product_id': 'TIC925P00XXZANSTI', 'unit_pri..."
1,2023-03-03,6618401292,446768284673,43.253748,-2.933973,"[{'product_id': 'CHE925P00XXVPUDCH', 'unit_pri..."
2,2023-03-03,105953837644,446960960513,40.476368,-3.693994,"[{'product_id': 'IST925R00XXZCOSIS', 'unit_pri..."
3,2023-03-03,206959821388,446973412353,40.634314,-4.010091,"[{'product_id': 'IMO925A00XXZCODIM', 'unit_pri..."
4,2023-03-03,237574636108,447580668929,41.704575,-4.747292,"[{'product_id': 'IEP925P00XXZCODIE', 'unit_pri..."
...,...,...,...,...,...,...
1652,2023-10-03,262081856076,1272359945329,40.045537,-6.062898,"[{'product_id': 'RIN925P00XXZCOTRI', 'unit_pri..."
1653,2023-10-03,609839858347,1273556763761,39.649468,-0.509212,"[{'product_id': 'IMO925P00XXZCOMIM', 'unit_pri..."
1654,2023-10-03,616726282923,1272278287473,39.462614,-0.353655,"[{'product_id': 'ATZ925P00XXZPECAT', 'unit_pri..."
1655,2023-10-03,624689627819,1271963518065,39.509791,-0.354745,"[{'product_id': 'OSE925P00XXZCOMOS', 'unit_pri..."


In [13]:
# Pivot: Calculando importe por familia
data_daily = data.groupby(["fecha", "product_family"], as_index = False)["price"].agg("sum")
data_pivot = data_daily.pivot(index='fecha', columns='product_family', values='price')
data_pivot

# Unstack: Calculando importe por familia
# data_daily = data.groupby(["fecha", "product_family"], as_index = True)["price"].agg("sum")
# data_unstacked = data_daily.unstack(level='product_family')
# data_unstacked


# Deshacemos el pivot
# df_melted = data_pivot.reset_index().melt(id_vars='fecha', var_name='product_family', value_name='price')
# df_melted


product_family,Anillo,Collar,Pendientes,Pulsera,Tobillera
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2023-03-03,88.00,151.00,114.0,54.00,29.0
2023-03-04,25.00,260.00,68.0,19.00,
2023-03-05,25.00,,50.0,,
2023-03-06,244.00,229.00,183.0,38.00,29.0
2023-03-07,119.00,281.00,244.0,88.00,
...,...,...,...,...,...
2023-09-28,29.95,109.82,,,
2023-09-29,29.95,51.95,,,
2023-10-01,,22.00,,29.95,
2023-10-02,87.00,97.00,49.0,,


In [None]:
## Guardamos los datos
data.to_csv("material/datos_procesados.csv")
data.head(10).to_json("material/datos_procesados_por_filas.json", orient = "records")
data_con_lineitems_nested.head(10).to_json("material/datos_procesados_por_filas_nesteado.json", orient = "records")