### **PANDAS DATA FRAME**

# ***Creación de DataFrame***

*Creación a partir de una lista de diccionarios*

In [None]:
import pandas as pd

lista_de_diccionario = [
    {"nombre": "Ana", "profesion": "Economista", "edad": 35},
    {"nombre": "Carla", "profesion": "Ingeniero", "edad": 38},
    {"nombre": "Pedro", "profesion": "Carpintero", "edad": 39},
    {"nombre": "Joana", "profesion": "Contador", "edad": 25},
    {"nombre": "Marcos", "profesion": "Arquitecto", "edad": 28},
    {"nombre": "Glendy", "profesion": "Nutricionista", "edad": 43},
    {"nombre": "Manuel", "profesion": "Mecanico", "edad": 36},
    {"nombre": "Carolina", "profesion": "Veterinaria", "edad": 32},
    {"nombre": "Andrea", "profesion": "Medico", "edad": 46},
    {"nombre": "José", "profesion": "Administrador", "edad": 45}
]

profesiones = pd.DataFrame(lista_de_diccionario)
profesiones

Unnamed: 0,nombre,profesion,edad
0,Ana,Economista,35
1,Carla,Ingeniero,38
2,Pedro,Carpintero,39
3,Joana,Contador,25
4,Marcos,Arquitecto,28
5,Glendy,Nutricionista,43
6,Manuel,Mecanico,36
7,Carolina,Veterinaria,32
8,Andrea,Medico,46
9,José,Administrador,45


*Creación a partir de una lista de listas (lista anidadas)*

In [None]:
import pandas as pd

lista_anidada = [
    ["Ana", "Economista", 35],
    ["Carla", "Ingeniero", 38],
    ["Pedro", "Carpintero", 39],
    ["Joana", "Contador", 25],
    ["Marcos", "Arquitecto", 28],
    ["Glendy", "Nutricionista", 43],
    ["Manuel", "Mecanico", 36],
    ["Carolina", "Veterinaria", 32],
    ["Andrea", "Medico", 46],
    ["José", "Administrador", 45]
]

profesiones = pd.DataFrame(lista_anidada, columns = ["Nombre", "Profesión", "Edad"])
profesiones

Unnamed: 0,Nombre,Profesión,Edad
0,Ana,Economista,35
1,Carla,Ingeniero,38
2,Pedro,Carpintero,39
3,Joana,Contador,25
4,Marcos,Arquitecto,28
5,Glendy,Nutricionista,43
6,Manuel,Mecanico,36
7,Carolina,Veterinaria,32
8,Andrea,Medico,46
9,José,Administrador,45


*Creación de DataFrame vacio*

In [None]:
df = pd.DataFrame()

*Creación a partir de una lista de filas*

In [None]:
lista = [[1,"a",True],[2,"b",False],[3,"c",True]]
columna = ["columna_1","columna_2","columna_3"]

df2 = pd.DataFrame(lista, columns=columna)
df2

Unnamed: 0,columna_1,columna_2,columna_3
0,1,a,True
1,2,b,False
2,3,c,True


Creación a partir de un diccionario

In [None]:
datos = {"nombre":["Ana", "Luis", "Carlos"], "profesion": ["Economista", "Actor", "Administrador"], "ciudad": ["Roma", "Madrid", "Sevilla"]}

df3 = pd.DataFrame(datos)
df3

Unnamed: 0,nombre,profesion,ciudad
0,Ana,Economista,Roma
1,Luis,Actor,Madrid
2,Carlos,Administrador,Sevilla


*Creación a partir de un Numpy array*

In [None]:
import numpy as np

arr = np.array([[1,2], [3,4]])

df4 = pd.DataFrame(arr, columns=["A", "B"])
df4

Unnamed: 0,A,B
0,1,2
1,3,4


*Elegir una columna como indice de filas*

In [None]:
profesiones = profesiones.set_index("Nombre")
profesiones.head()

Unnamed: 0_level_0,Profesión,Edad
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Ana,Economista,35
Carla,Ingeniero,38
Pedro,Carpintero,39
Joana,Contador,25
Marcos,Arquitecto,28


Como saber el nombre de nuestras columnas?

In [None]:
profesiones.columns

Index(['Profesión', 'Edad'], dtype='object')

Como saber los nombres de nuestras filas?

In [None]:
profesiones.index

Index(['Ana', 'Carla', 'Pedro', 'Joana', 'Marcos', 'Glendy', 'Manuel',
       'Carolina', 'Andrea', 'José'],
      dtype='object', name='Nombre')

Revertir lo realizado, es decir el indice "nombre" pasarlo nuevamente a columna

In [None]:
profesiones = profesiones.reset_index()
profesiones.head()

Unnamed: 0,Nombre,Profesión,Edad
0,Ana,Economista,35
1,Carla,Ingeniero,38
2,Pedro,Carpintero,39
3,Joana,Contador,25
4,Marcos,Arquitecto,28


# ***Carga desde fuentes externas:***


1. Cargar desde un archivo csv

import pandas as pd

df = pd.read_csv("Bakery.csv", delimiter = ",")

df.head(10)



2. Cargar desde un archivo excel

import pandas as pd

df = pd.read_excel("Bakery.xlsx")

df.head(10)



3. Cargar desde un archivo pickle

import pandas as pd

df = pd.read_pickle("Bakery.pkl")

df.head(10)

# ***Operaciones y métodos en DataFrame***

Crear nuevas columnas

In [None]:
df_dias = pd.DataFrame({"dias_laborables": ["Lunes", "Martes", "Miercoles", "Jueves", "Viernes"]})
df_dias


Unnamed: 0,dias_laborables
0,Lunes
1,Martes
2,Miercoles
3,Jueves
4,Viernes


In [None]:
df_dias["dias_no_laborables"] = ["Sábado", "Domingo", "", "", ""]
df_dias

Unnamed: 0,dias_laborables,dias_no_laborables
0,Lunes,Sábado
1,Martes,Domingo
2,Miercoles,
3,Jueves,
4,Viernes,


*Crear nuevas columnas como resultado de alguna operación sobre columna o entre columnas*

In [None]:
df_nombres = pd.DataFrame({"nombre": ["Juan", "Maria", "Manuel", "Javier", "Vanessa"]})
df_nombres

Unnamed: 0,nombre
0,Juan
1,Maria
2,Manuel
3,Javier
4,Vanessa


*Agregar prefijos a cada valor de cada columna*

In [None]:
df_nombres["nombre_prefijo_version_1"] = "Sr." + df_nombres["nombre"]
df_nombres["nombre_prefijo_version_2"] = ["Sr.","Sra.","Sr.","Sr.","Sra."] + df_nombres["nombre"]
df_nombres

Unnamed: 0,nombre,nombre_prefijo_version_1,nombre_prefijo_version_2
0,Juan,Sr.Juan,Sr.Juan
1,Maria,Sr.Maria,Sra.Maria
2,Manuel,Sr.Manuel,Sr.Manuel
3,Javier,Sr.Javier,Sr.Javier
4,Vanessa,Sr.Vanessa,Sra.Vanessa


*Agregar una columna, generando una lista de valores aleatorios*

In [None]:
import numpy as np

df_nombres["edad"] = np.random.randint(18,100,5)
df_nombres

Unnamed: 0,nombre,nombre_prefijo_version_1,nombre_prefijo_version_2,edad
0,Juan,Sr.Juan,Sr.Juan,82
1,Maria,Sr.Maria,Sra.Maria,68
2,Manuel,Sr.Manuel,Sr.Manuel,65
3,Javier,Sr.Javier,Sr.Javier,19
4,Vanessa,Sr.Vanessa,Sra.Vanessa,67


# ***Combinación de DataFrame***

In [None]:
df1 = pd.DataFrame({"mes":"enero", "ventas": np.random.randint(1,100,5)})
df1

Unnamed: 0,mes,ventas
0,enero,59
1,enero,16
2,enero,10
3,enero,1
4,enero,52


In [None]:
df2 = pd.DataFrame({"mes":"febrero", "ventas": np.random.randint(1,100,5)})
df2

Unnamed: 0,mes,ventas
0,febrero,91
1,febrero,69
2,febrero,2
3,febrero,77
4,febrero,81


In [None]:
df3 = pd.concat([df1,df2])
df3

Unnamed: 0,mes,ventas
0,enero,59
1,enero,16
2,enero,10
3,enero,1
4,enero,52
0,febrero,91
1,febrero,69
2,febrero,2
3,febrero,77
4,febrero,81


*Reordenando el indice, que quedó duplicado*

In [None]:
df3 = df3.reset_index(drop=True)
df3

Unnamed: 0,mes,ventas
0,enero,59
1,enero,16
2,enero,10
3,enero,1
4,enero,52
5,febrero,91
6,febrero,69
7,febrero,2
8,febrero,77
9,febrero,81


Creamos otro dataframe para combinar con el anterior

In [None]:
df4 = pd.DataFrame({"mes": "marzo", "ventas": np.random.randint(1,100,1)})
df4

Unnamed: 0,mes,ventas
0,marzo,49


In [None]:
df5 = pd.concat([df3,df4], ignore_index=True)
df5

Unnamed: 0,mes,ventas
0,enero,59
1,enero,16
2,enero,10
3,enero,1
4,enero,52
5,febrero,91
6,febrero,69
7,febrero,2
8,febrero,77
9,febrero,81


## ***Explorando un DataFrame***




*Conteos*

El método value_counts() nos permite realizar un recuento de los valores de una columna:

In [None]:
df5["ventas"].value_counts()


ventas
59    1
16    1
10    1
1     1
52    1
91    1
69    1
2     1
77    1
81    1
49    1
Name: count, dtype: int64

*Estadistica descriptiva*

In [None]:
df5.describe()

Unnamed: 0,ventas
count,11.0
mean,46.090909
std,33.33303
min,1.0
25%,13.0
50%,52.0
75%,73.0
max,91.0


*Orden, Ranking e indexacion de un DataFrame*

Ordenar por edad:

In [None]:
import pandas as pd

lista_profesionales = [
    ["Ana", "Economista", 35, "soltero", 65, 1.78],
    ["Carla", "Ingeniero", 38, "soltero", 60, 1.65],
    ["Pedro", "Carpintero", 39, "casado", 79, 1.79],
    ["Joana", "Contador", 25, "casado", 68, 1.59],
    ["Marcos", "Arquitecto", 28, "casado", 85, 1.87],
    ["Glendy", "Nutricionista", 43, "divorciado", 53, 1.63],
    ["Manuel", "Mecanico", 36,"soltero", 74, 1.76],
    ["Carolina", "Veterinaria", 32,"soltero", 60, 1.75],
    ["Andrea", "Medico", 46,"casado", 73,1.68],
    ["José", "Administrador", 45,"casado", 80, 1.71]
]

profesionales = pd.DataFrame(lista_profesionales, columns = ["Nombre", "Profesión", "Edad","Estado Civil","Peso","Estatura"])
profesionales

Unnamed: 0,Nombre,Profesión,Edad,Estado Civil,Peso,Estatura
0,Ana,Economista,35,soltero,65,1.78
1,Carla,Ingeniero,38,soltero,60,1.65
2,Pedro,Carpintero,39,casado,79,1.79
3,Joana,Contador,25,casado,68,1.59
4,Marcos,Arquitecto,28,casado,85,1.87
5,Glendy,Nutricionista,43,divorciado,53,1.63
6,Manuel,Mecanico,36,soltero,74,1.76
7,Carolina,Veterinaria,32,soltero,60,1.75
8,Andrea,Medico,46,casado,73,1.68
9,José,Administrador,45,casado,80,1.71


In [None]:
profesionales = profesionales.set_index("Nombre")
profesionales

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ana,Economista,35,soltero,65,1.78
Carla,Ingeniero,38,soltero,60,1.65
Pedro,Carpintero,39,casado,79,1.79
Joana,Contador,25,casado,68,1.59
Marcos,Arquitecto,28,casado,85,1.87
Glendy,Nutricionista,43,divorciado,53,1.63
Manuel,Mecanico,36,soltero,74,1.76
Carolina,Veterinaria,32,soltero,60,1.75
Andrea,Medico,46,casado,73,1.68
José,Administrador,45,casado,80,1.71


In [None]:
profesionales.sort_values("Edad", ascending=True)

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Joana,Contador,25,casado,68,1.59
Marcos,Arquitecto,28,casado,85,1.87
Carolina,Veterinaria,32,soltero,60,1.75
Ana,Economista,35,soltero,65,1.78
Manuel,Mecanico,36,soltero,74,1.76
Carla,Ingeniero,38,soltero,60,1.65
Pedro,Carpintero,39,casado,79,1.79
Glendy,Nutricionista,43,divorciado,53,1.63
José,Administrador,45,casado,80,1.71
Andrea,Medico,46,casado,73,1.68


*Podemos obtener el ranking de los valores de una columna:*

In [None]:
profesionales["Edad"].rank(ascending = True)

Nombre
Ana          4.0
Carla        6.0
Pedro        7.0
Joana        1.0
Marcos       2.0
Glendy       8.0
Manuel       5.0
Carolina     3.0
Andrea      10.0
José         9.0
Name: Edad, dtype: float64

# ***Indexación***

***Indexación por posición, usando iloc***

lo que está a la izquierda de la coma siempre hace referencia a la fila, y lo que está despues de la coma hace referencia a la columna.

In [None]:
profesionales.iloc[2,3]

79

podemos usar lista de filas y columnas

In [None]:
profesionales.iloc[[0,1,2,3,4,5,6],[0,1,2,3]]

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ana,Economista,35,soltero,65
Carla,Ingeniero,38,soltero,60
Pedro,Carpintero,39,casado,79
Joana,Contador,25,casado,68
Marcos,Arquitecto,28,casado,85
Glendy,Nutricionista,43,divorciado,53
Manuel,Mecanico,36,soltero,74


podemos usar rangos de filas y columnas

In [None]:
profesionales.iloc[0:3, 0:5]

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ana,Economista,35,soltero,65,1.78
Carla,Ingeniero,38,soltero,60,1.65
Pedro,Carpintero,39,casado,79,1.79


***Indexación por etiquetas, usando loc***

In [None]:
profesionales.loc[["Pedro", "Marcos", "Manuel", "José"],["Estado Civil"]]

Unnamed: 0_level_0,Estado Civil
Nombre,Unnamed: 1_level_1
Pedro,casado
Marcos,casado
Manuel,soltero
José,casado


*También podemos usar rango de etiquetas*

In [None]:
profesionales.loc["Ana":"Carolina", "Profesión":"Estado Civil"]

Unnamed: 0_level_0,Profesión,Edad,Estado Civil
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ana,Economista,35,soltero
Carla,Ingeniero,38,soltero
Pedro,Carpintero,39,casado
Joana,Contador,25,casado
Marcos,Arquitecto,28,casado
Glendy,Nutricionista,43,divorciado
Manuel,Mecanico,36,soltero
Carolina,Veterinaria,32,soltero


***Indexación boolena***

In [None]:
profesionales[(profesionales["Edad"]>35) & (profesionales["Estado Civil"]=="soltero")]

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Carla,Ingeniero,38,soltero,60,1.65
Manuel,Mecanico,36,soltero,74,1.76


***Metódo query***

permite realizar una indexación boolena más sencilla

In [None]:
profesionales.query("Edad > 30 and Peso > 75")

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Pedro,Carpintero,39,casado,79,1.79
José,Administrador,45,casado,80,1.71


## ***Manipulación de DataFrame***

***Combinar y unir datos***

In [None]:
import pandas as pd
import numpy as np

Defininos 2 DataFrame:

Primero, uno con rubros y un identificador de rubro:

In [None]:
rubros = ["vestuario", "calzado", "hogar", "libros", "cosmética"]
n_rubros = len(rubros)

In [None]:
df_rubros = pd.DataFrame({"id_rubro":range(0,n_rubros),"des_rubro":rubros})
df_rubros

Unnamed: 0,id_rubro,des_rubro
0,0,vestuario
1,1,calzado
2,2,hogar
3,3,libros
4,4,cosmética


Segundo, creamos un DataFrame con 100 ventas, cada una de ellas tendrá un identificador (id_venta), un número que alude al rubro de la venta, el precio del articulo vendido y la cantidad de articulos comprados

In [None]:
numero_ventas = 100

df_ventas = pd.DataFrame({"id_venta":range(0,numero_ventas),
                          "rubro":np.random.randint(0,n_rubros,numero_ventas),
                          "precio": np.random.randint(2400,10000,numero_ventas),
                          "cantidad":np.random.randint(1,7,numero_ventas)}
                         )
df_ventas

Unnamed: 0,id_venta,rubro,precio,cantidad
0,0,1,5504,6
1,1,4,8334,4
2,2,3,6777,3
3,3,2,5162,1
4,4,2,4313,2
...,...,...,...,...
95,95,2,3086,4
96,96,4,9090,2
97,97,4,6315,1
98,98,1,5886,2


*Unir los dos DataFrame, usando merge()*

In [None]:
df_merged = df_ventas.merge(df_rubros, left_on="rubro", right_on="id_rubro", validate="many_to_one")
df_merged

Unnamed: 0,id_venta,rubro,precio,cantidad,id_rubro,des_rubro
0,0,1,5504,6,1,calzado
1,7,1,6673,4,1,calzado
2,16,1,4864,6,1,calzado
3,21,1,7666,1,1,calzado
4,24,1,9004,1,1,calzado
...,...,...,...,...,...,...
95,80,0,7992,3,0,vestuario
96,86,0,8070,2,0,vestuario
97,87,0,7251,3,0,vestuario
98,89,0,3789,5,0,vestuario


Otro ejemplo:

Creamos 2 DataFrame: uno de usuarios y otro de pedidos

In [None]:
import pandas as pd
import numpy as np

df_usuarios = pd.DataFrame({
    "id_usuario": [1,2,3,4,5,6],
    "nombre_usuario": ["Angel", "Luis", "Antonio", "Maria", "Luisa", "Marcos"],
    "edad": [25, 18, 35, 19, 24, 45]
})

df_usuarios

Unnamed: 0,id_usuario,nombre_usuario,edad
0,1,Angel,25
1,2,Luis,18
2,3,Antonio,35
3,4,Maria,19
4,5,Luisa,24
5,6,Marcos,45


In [None]:
df_pedidos = pd.DataFrame({
    "id_pedido": [1,2,3,4,5,6,7,8],
    "id_usuario": [1,2,3,3,4,4,4,5],
    "fecha":["2022-01-01","2022-01-01","2022-01-02","2022-01-02","2022-01-02","2022-01-03","2022-01-03","2022-01-04"],
    "producto":["A","B", "A","B","A","A","B","A"],
    "cantidad":[10,5,12,8,5,6,6,15],
    "precio":[100,50,120,80,150,150,100,90]
})
df_pedidos

Unnamed: 0,id_pedido,id_usuario,fecha,producto,cantidad,precio
0,1,1,2022-01-01,A,10,100
1,2,2,2022-01-01,B,5,50
2,3,3,2022-01-02,A,12,120
3,4,3,2022-01-02,B,8,80
4,5,4,2022-01-02,A,5,150
5,6,4,2022-01-03,A,6,150
6,7,4,2022-01-03,B,6,100
7,8,5,2022-01-04,A,15,90


Queremos un informe dettalado de los usuarios con sus pedidos, incluso aquellos usuarios que no han realizado ninguna compra y todos los pedidos independientemente de si tienen usuario asociado o no.

En este caso usamos el outer join

In [None]:
df_merged = df_pedidos.merge(df_usuarios, on = "id_usuario", how = "outer")
df_merged

Unnamed: 0,id_pedido,id_usuario,fecha,producto,cantidad,precio,nombre_usuario,edad
0,1.0,1,2022-01-01,A,10.0,100.0,Angel,25
1,2.0,2,2022-01-01,B,5.0,50.0,Luis,18
2,3.0,3,2022-01-02,A,12.0,120.0,Antonio,35
3,4.0,3,2022-01-02,B,8.0,80.0,Antonio,35
4,5.0,4,2022-01-02,A,5.0,150.0,Maria,19
5,6.0,4,2022-01-03,A,6.0,150.0,Maria,19
6,7.0,4,2022-01-03,B,6.0,100.0,Maria,19
7,8.0,5,2022-01-04,A,15.0,90.0,Luisa,24
8,,6,,,,,Marcos,45


*Creación de columnas calculadas:*

In [None]:
df_merged ["monto_venta"] = df_merged["precio"] * df_merged["cantidad"]
df_merged

Unnamed: 0,id_pedido,id_usuario,fecha,producto,cantidad,precio,nombre_usuario,edad,monto_venta
0,1.0,1,2022-01-01,A,10.0,100.0,Angel,25,1000.0
1,2.0,2,2022-01-01,B,5.0,50.0,Luis,18,250.0
2,3.0,3,2022-01-02,A,12.0,120.0,Antonio,35,1440.0
3,4.0,3,2022-01-02,B,8.0,80.0,Antonio,35,640.0
4,5.0,4,2022-01-02,A,5.0,150.0,Maria,19,750.0
5,6.0,4,2022-01-03,A,6.0,150.0,Maria,19,900.0
6,7.0,4,2022-01-03,B,6.0,100.0,Maria,19,600.0
7,8.0,5,2022-01-04,A,15.0,90.0,Luisa,24,1350.0
8,,6,,,,,Marcos,45,


# ***Tablas Pivote***

In [None]:
df_pivot_reporte1 = pd.pivot_table(
    data = df_merged, # Dataframe
    index = "nombre_usuario", # Columna(s) del DataFrame original que queremos como indice en la tabla de resultados
    values = "monto_venta", # valores a los que les aplicaremos aggfunc
    aggfunc ="sum", # función a aplicar a la columna de valores
    margins = True # generar una fila/columna de totales
)
df_pivot_reporte1

Unnamed: 0_level_0,monto_venta
nombre_usuario,Unnamed: 1_level_1
Angel,1000.0
Antonio,2080.0
Luis,250.0
Luisa,1350.0
Marcos,0.0
Maria,2250.0
All,6930.0


*Para transformar los indices que tenemos en una columna normal:*

In [None]:
df_pivot_reporte1.reset_index()

Unnamed: 0,nombre_usuario,monto_venta
0,Angel,1000.0
1,Antonio,2080.0
2,Luis,250.0
3,Luisa,1350.0
4,Marcos,0.0
5,Maria,2250.0
6,All,6930.0


# ***Transposición de DataFrame***

In [None]:
df_pivot_reporte1.T

nombre_usuario,Angel,Antonio,Luis,Luisa,Marcos,Maria,All
monto_venta,1000.0,2080.0,250.0,1350.0,0.0,2250.0,6930.0


In [None]:
df_pivot_reporte1.transpose()

nombre_usuario,Angel,Antonio,Luis,Luisa,Marcos,Maria,All
monto_venta,1000.0,2080.0,250.0,1350.0,0.0,2250.0,6930.0


# ***Funciones lambda***

In [None]:
df_merged

Unnamed: 0,id_pedido,id_usuario,fecha,producto,cantidad,precio,nombre_usuario,edad,monto_venta
0,1.0,1,2022-01-01,A,10.0,100.0,Angel,25,1000.0
1,2.0,2,2022-01-01,B,5.0,50.0,Luis,18,250.0
2,3.0,3,2022-01-02,A,12.0,120.0,Antonio,35,1440.0
3,4.0,3,2022-01-02,B,8.0,80.0,Antonio,35,640.0
4,5.0,4,2022-01-02,A,5.0,150.0,Maria,19,750.0
5,6.0,4,2022-01-03,A,6.0,150.0,Maria,19,900.0
6,7.0,4,2022-01-03,B,6.0,100.0,Maria,19,600.0
7,8.0,5,2022-01-04,A,15.0,90.0,Luisa,24,1350.0
8,,6,,,,,Marcos,45,


In [None]:
df_pivot_reporte2 = pd.pivot_table(
    data = df_merged,
    index = "producto",
    values = "monto_venta",
    aggfunc = lambda x: x.max() - x.min(), # creamos una función
    margins = True
)
df_pivot_reporte2 = df_pivot_reporte2.rename(columns = {"monto_venta":"rango_venta"})
df_pivot_reporte2

Unnamed: 0_level_0,rango_venta
producto,Unnamed: 1_level_1
A,690.0
B,390.0
All,1190.0


In [None]:
df_pivot_reporte3 = pd.pivot_table(
    data = df_merged,
    index = "producto",
    values = "monto_venta",
    aggfunc = lambda x: (round((x.sum() / df_merged["monto_venta"].sum())*100,2)), # creamos una función
    margins = True
)

df_pivot_reporte3 = df_pivot_reporte3.rename({"monto_venta":"porcentaje_venta"})
df_pivot_reporte3

Unnamed: 0_level_0,monto_venta
producto,Unnamed: 1_level_1
A,78.5
B,21.5
All,100.0


# ***Transformación y limpieza de datos***



***Duplicados***

In [5]:
import pandas as pd

df_amigos = pd.DataFrame ({
    "Nombre": ["Marta","Julio","Carla","Andrés","Mariana","Julio", "Carla"],
    "Edad": [25,18,42,22,63,18,23],
    "Ciudad":["Caracas", "Valencia", "Margarita", "La Guaira", "Puerto Ordaz", "Valencia","Margarita"]
}
)
df_amigos

Unnamed: 0,Nombre,Edad,Ciudad
0,Marta,25,Caracas
1,Julio,18,Valencia
2,Carla,42,Margarita
3,Andrés,22,La Guaira
4,Mariana,63,Puerto Ordaz
5,Julio,18,Valencia
6,Carla,23,Margarita


Eliminar duplicados