### **PANDAS DATA FRAME**

# ***Creación de DataFrame***

*Creación a partir de una lista de diccionarios*

In [None]:
import pandas as pd

lista_de_diccionario = [
    {"nombre": "Ana", "profesion": "Economista", "edad": 35},
    {"nombre": "Carla", "profesion": "Ingeniero", "edad": 38},
    {"nombre": "Pedro", "profesion": "Carpintero", "edad": 39},
    {"nombre": "Joana", "profesion": "Contador", "edad": 25},
    {"nombre": "Marcos", "profesion": "Arquitecto", "edad": 28},
    {"nombre": "Glendy", "profesion": "Nutricionista", "edad": 43},
    {"nombre": "Manuel", "profesion": "Mecanico", "edad": 36},
    {"nombre": "Carolina", "profesion": "Veterinaria", "edad": 32},
    {"nombre": "Andrea", "profesion": "Medico", "edad": 46},
    {"nombre": "José", "profesion": "Administrador", "edad": 45}
]

profesiones = pd.DataFrame(lista_de_diccionario)
profesiones

Unnamed: 0,nombre,profesion,edad
0,Ana,Economista,35
1,Carla,Ingeniero,38
2,Pedro,Carpintero,39
3,Joana,Contador,25
4,Marcos,Arquitecto,28
5,Glendy,Nutricionista,43
6,Manuel,Mecanico,36
7,Carolina,Veterinaria,32
8,Andrea,Medico,46
9,José,Administrador,45


*Creación a partir de una lista de listas (lista anidadas)*

In [None]:
import pandas as pd

lista_anidada = [
    ["Ana", "Economista", 35],
    ["Carla", "Ingeniero", 38],
    ["Pedro", "Carpintero", 39],
    ["Joana", "Contador", 25],
    ["Marcos", "Arquitecto", 28],
    ["Glendy", "Nutricionista", 43],
    ["Manuel", "Mecanico", 36],
    ["Carolina", "Veterinaria", 32],
    ["Andrea", "Medico", 46],
    ["José", "Administrador", 45]
]

profesiones = pd.DataFrame(lista_anidada, columns = ["Nombre", "Profesión", "Edad"])
profesiones

Unnamed: 0,Nombre,Profesión,Edad
0,Ana,Economista,35
1,Carla,Ingeniero,38
2,Pedro,Carpintero,39
3,Joana,Contador,25
4,Marcos,Arquitecto,28
5,Glendy,Nutricionista,43
6,Manuel,Mecanico,36
7,Carolina,Veterinaria,32
8,Andrea,Medico,46
9,José,Administrador,45


*Creación de DataFrame vacio*

In [None]:
df = pd.DataFrame()

*Creación a partir de una lista de filas*

In [None]:
lista = [[1,"a",True],[2,"b",False],[3,"c",True]]
columna = ["columna_1","columna_2","columna_3"]

df2 = pd.DataFrame(lista, columns=columna)
df2

Unnamed: 0,columna_1,columna_2,columna_3
0,1,a,True
1,2,b,False
2,3,c,True


Creación a partir de un diccionario

In [None]:
datos = {"nombre":["Ana", "Luis", "Carlos"], "profesion": ["Economista", "Actor", "Administrador"], "ciudad": ["Roma", "Madrid", "Sevilla"]}

df3 = pd.DataFrame(datos)
df3

Unnamed: 0,nombre,profesion,ciudad
0,Ana,Economista,Roma
1,Luis,Actor,Madrid
2,Carlos,Administrador,Sevilla


*Creación a partir de un Numpy array*

In [None]:
import numpy as np

arr = np.array([[1,2], [3,4]])

df4 = pd.DataFrame(arr, columns=["A", "B"])
df4

Unnamed: 0,A,B
0,1,2
1,3,4


*Elegir una columna como indice de filas*

In [None]:
profesiones = profesiones.set_index("Nombre")
profesiones.head()

Unnamed: 0_level_0,Profesión,Edad
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Ana,Economista,35
Carla,Ingeniero,38
Pedro,Carpintero,39
Joana,Contador,25
Marcos,Arquitecto,28


Como saber el nombre de nuestras columnas?

In [None]:
profesiones.columns

Index(['Profesión', 'Edad'], dtype='object')

Como saber los nombres de nuestras filas?

In [None]:
profesiones.index

Index(['Ana', 'Carla', 'Pedro', 'Joana', 'Marcos', 'Glendy', 'Manuel',
       'Carolina', 'Andrea', 'José'],
      dtype='object', name='Nombre')

Revertir lo realizado, es decir el indice "nombre" pasarlo nuevamente a columna

In [None]:
profesiones = profesiones.reset_index()
profesiones.head()

Unnamed: 0,Nombre,Profesión,Edad
0,Ana,Economista,35
1,Carla,Ingeniero,38
2,Pedro,Carpintero,39
3,Joana,Contador,25
4,Marcos,Arquitecto,28


# ***Carga desde fuentes externas:***


1. Cargar desde un archivo csv

import pandas as pd

df = pd.read_csv("Bakery.csv", delimiter = ",")

df.head(10)



2. Cargar desde un archivo excel

import pandas as pd

df = pd.read_excel("Bakery.xlsx")

df.head(10)



3. Cargar desde un archivo pickle

import pandas as pd

df = pd.read_pickle("Bakery.pkl")

df.head(10)

# ***Operaciones y métodos en DataFrame***

Crear nuevas columnas

In [None]:
df_dias = pd.DataFrame({"dias_laborables": ["Lunes", "Martes", "Miercoles", "Jueves", "Viernes"]})
df_dias


Unnamed: 0,dias_laborables
0,Lunes
1,Martes
2,Miercoles
3,Jueves
4,Viernes


In [None]:
df_dias["dias_no_laborables"] = ["Sábado", "Domingo", "", "", ""]
df_dias

Unnamed: 0,dias_laborables,dias_no_laborables
0,Lunes,Sábado
1,Martes,Domingo
2,Miercoles,
3,Jueves,
4,Viernes,


*Crear nuevas columnas como resultado de alguna operación sobre columna o entre columnas*

In [None]:
df_nombres = pd.DataFrame({"nombre": ["Juan", "Maria", "Manuel", "Javier", "Vanessa"]})
df_nombres

Unnamed: 0,nombre
0,Juan
1,Maria
2,Manuel
3,Javier
4,Vanessa


*Agregar prefijos a cada valor de cada columna*

In [None]:
df_nombres["nombre_prefijo_version_1"] = "Sr." + df_nombres["nombre"]
df_nombres["nombre_prefijo_version_2"] = ["Sr.","Sra.","Sr.","Sr.","Sra."] + df_nombres["nombre"]
df_nombres

Unnamed: 0,nombre,nombre_prefijo_version_1,nombre_prefijo_version_2
0,Juan,Sr.Juan,Sr.Juan
1,Maria,Sr.Maria,Sra.Maria
2,Manuel,Sr.Manuel,Sr.Manuel
3,Javier,Sr.Javier,Sr.Javier
4,Vanessa,Sr.Vanessa,Sra.Vanessa


*Agregar una columna, generando una lista de valores aleatorios*

In [None]:
import numpy as np

df_nombres["edad"] = np.random.randint(18,100,5)
df_nombres

Unnamed: 0,nombre,nombre_prefijo_version_1,nombre_prefijo_version_2,edad
0,Juan,Sr.Juan,Sr.Juan,82
1,Maria,Sr.Maria,Sra.Maria,68
2,Manuel,Sr.Manuel,Sr.Manuel,65
3,Javier,Sr.Javier,Sr.Javier,19
4,Vanessa,Sr.Vanessa,Sra.Vanessa,67


# ***Combinación de DataFrame***

In [None]:
df1 = pd.DataFrame({"mes":"enero", "ventas": np.random.randint(1,100,5)})
df1

Unnamed: 0,mes,ventas
0,enero,59
1,enero,16
2,enero,10
3,enero,1
4,enero,52


In [None]:
df2 = pd.DataFrame({"mes":"febrero", "ventas": np.random.randint(1,100,5)})
df2

Unnamed: 0,mes,ventas
0,febrero,91
1,febrero,69
2,febrero,2
3,febrero,77
4,febrero,81


In [None]:
df3 = pd.concat([df1,df2])
df3

Unnamed: 0,mes,ventas
0,enero,59
1,enero,16
2,enero,10
3,enero,1
4,enero,52
0,febrero,91
1,febrero,69
2,febrero,2
3,febrero,77
4,febrero,81


*Reordenando el indice, que quedó duplicado*

In [None]:
df3 = df3.reset_index(drop=True)
df3

Unnamed: 0,mes,ventas
0,enero,59
1,enero,16
2,enero,10
3,enero,1
4,enero,52
5,febrero,91
6,febrero,69
7,febrero,2
8,febrero,77
9,febrero,81


Creamos otro dataframe para combinar con el anterior

In [None]:
df4 = pd.DataFrame({"mes": "marzo", "ventas": np.random.randint(1,100,1)})
df4

Unnamed: 0,mes,ventas
0,marzo,49


In [None]:
df5 = pd.concat([df3,df4], ignore_index=True)
df5

Unnamed: 0,mes,ventas
0,enero,59
1,enero,16
2,enero,10
3,enero,1
4,enero,52
5,febrero,91
6,febrero,69
7,febrero,2
8,febrero,77
9,febrero,81


## ***Explorando un DataFrame***




*Conteos*

El método value_counts() nos permite realizar un recuento de los valores de una columna:

In [None]:
df5["ventas"].value_counts()


ventas
59    1
16    1
10    1
1     1
52    1
91    1
69    1
2     1
77    1
81    1
49    1
Name: count, dtype: int64

*Estadistica descriptiva*

In [None]:
df5.describe()

Unnamed: 0,ventas
count,11.0
mean,46.090909
std,33.33303
min,1.0
25%,13.0
50%,52.0
75%,73.0
max,91.0


*Orden, Ranking e indexacion de un DataFrame*

Ordenar por edad:

In [None]:
import pandas as pd

lista_profesionales = [
    ["Ana", "Economista", 35, "soltero", 65, 1.78],
    ["Carla", "Ingeniero", 38, "soltero", 60, 1.65],
    ["Pedro", "Carpintero", 39, "casado", 79, 1.79],
    ["Joana", "Contador", 25, "casado", 68, 1.59],
    ["Marcos", "Arquitecto", 28, "casado", 85, 1.87],
    ["Glendy", "Nutricionista", 43, "divorciado", 53, 1.63],
    ["Manuel", "Mecanico", 36,"soltero", 74, 1.76],
    ["Carolina", "Veterinaria", 32,"soltero", 60, 1.75],
    ["Andrea", "Medico", 46,"casado", 73,1.68],
    ["José", "Administrador", 45,"casado", 80, 1.71]
]

profesionales = pd.DataFrame(lista_profesionales, columns = ["Nombre", "Profesión", "Edad","Estado Civil","Peso","Estatura"])
profesionales

Unnamed: 0,Nombre,Profesión,Edad,Estado Civil,Peso,Estatura
0,Ana,Economista,35,soltero,65,1.78
1,Carla,Ingeniero,38,soltero,60,1.65
2,Pedro,Carpintero,39,casado,79,1.79
3,Joana,Contador,25,casado,68,1.59
4,Marcos,Arquitecto,28,casado,85,1.87
5,Glendy,Nutricionista,43,divorciado,53,1.63
6,Manuel,Mecanico,36,soltero,74,1.76
7,Carolina,Veterinaria,32,soltero,60,1.75
8,Andrea,Medico,46,casado,73,1.68
9,José,Administrador,45,casado,80,1.71


In [None]:
profesionales = profesionales.set_index("Nombre")
profesionales

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ana,Economista,35,soltero,65,1.78
Carla,Ingeniero,38,soltero,60,1.65
Pedro,Carpintero,39,casado,79,1.79
Joana,Contador,25,casado,68,1.59
Marcos,Arquitecto,28,casado,85,1.87
Glendy,Nutricionista,43,divorciado,53,1.63
Manuel,Mecanico,36,soltero,74,1.76
Carolina,Veterinaria,32,soltero,60,1.75
Andrea,Medico,46,casado,73,1.68
José,Administrador,45,casado,80,1.71


In [None]:
profesionales.sort_values("Edad", ascending=True)

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Joana,Contador,25,casado,68,1.59
Marcos,Arquitecto,28,casado,85,1.87
Carolina,Veterinaria,32,soltero,60,1.75
Ana,Economista,35,soltero,65,1.78
Manuel,Mecanico,36,soltero,74,1.76
Carla,Ingeniero,38,soltero,60,1.65
Pedro,Carpintero,39,casado,79,1.79
Glendy,Nutricionista,43,divorciado,53,1.63
José,Administrador,45,casado,80,1.71
Andrea,Medico,46,casado,73,1.68


*Podemos obtener el ranking de los valores de una columna:*

In [None]:
profesionales["Edad"].rank(ascending = True)

Nombre
Ana          4.0
Carla        6.0
Pedro        7.0
Joana        1.0
Marcos       2.0
Glendy       8.0
Manuel       5.0
Carolina     3.0
Andrea      10.0
José         9.0
Name: Edad, dtype: float64

# ***Indexación***

***Indexación por posición, usando iloc***

lo que está a la izquierda de la coma siempre hace referencia a la fila, y lo que está despues de la coma hace referencia a la columna.

In [None]:
profesionales.iloc[2,3]

79

podemos usar lista de filas y columnas

In [None]:
profesionales.iloc[[0,1,2,3,4,5,6],[0,1,2,3]]

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ana,Economista,35,soltero,65
Carla,Ingeniero,38,soltero,60
Pedro,Carpintero,39,casado,79
Joana,Contador,25,casado,68
Marcos,Arquitecto,28,casado,85
Glendy,Nutricionista,43,divorciado,53
Manuel,Mecanico,36,soltero,74


podemos usar rangos de filas y columnas

In [None]:
profesionales.iloc[0:3, 0:5]

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ana,Economista,35,soltero,65,1.78
Carla,Ingeniero,38,soltero,60,1.65
Pedro,Carpintero,39,casado,79,1.79


***Indexación por etiquetas, usando loc***

In [None]:
profesionales.loc[["Pedro", "Marcos", "Manuel", "José"],["Estado Civil"]]

Unnamed: 0_level_0,Estado Civil
Nombre,Unnamed: 1_level_1
Pedro,casado
Marcos,casado
Manuel,soltero
José,casado


*También podemos usar rango de etiquetas*

In [None]:
profesionales.loc["Ana":"Carolina", "Profesión":"Estado Civil"]

Unnamed: 0_level_0,Profesión,Edad,Estado Civil
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ana,Economista,35,soltero
Carla,Ingeniero,38,soltero
Pedro,Carpintero,39,casado
Joana,Contador,25,casado
Marcos,Arquitecto,28,casado
Glendy,Nutricionista,43,divorciado
Manuel,Mecanico,36,soltero
Carolina,Veterinaria,32,soltero


***Indexación boolena***

In [None]:
profesionales[(profesionales["Edad"]>35) & (profesionales["Estado Civil"]=="soltero")]

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Carla,Ingeniero,38,soltero,60,1.65
Manuel,Mecanico,36,soltero,74,1.76


***Metódo query***

permite realizar una indexación boolena más sencilla

In [None]:
profesionales.query("Edad > 30 and Peso > 75")

Unnamed: 0_level_0,Profesión,Edad,Estado Civil,Peso,Estatura
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Pedro,Carpintero,39,casado,79,1.79
José,Administrador,45,casado,80,1.71


## ***Manipulación de DataFrame***

***Combinar y unir datos***

In [None]:
import pandas as pd
import numpy as np

Defininos 2 DataFrame:

Primero, uno con rubros y un identificador de rubro:

In [None]:
rubros = ["vestuario", "calzado", "hogar", "libros", "cosmética"]
n_rubros = len(rubros)

In [None]:
df_rubros = pd.DataFrame({"id_rubro":range(0,n_rubros),"des_rubro":rubros})
df_rubros

Unnamed: 0,id_rubro,des_rubro
0,0,vestuario
1,1,calzado
2,2,hogar
3,3,libros
4,4,cosmética


Segundo, creamos un DataFrame con 100 ventas, cada una de ellas tendrá un identificador (id_venta), un número que alude al rubro de la venta, el precio del articulo vendido y la cantidad de articulos comprados

In [None]:
numero_ventas = 100

df_ventas = pd.DataFrame({"id_venta":range(0,numero_ventas),
                          "rubro":np.random.randint(0,n_rubros,numero_ventas),
                          "precio": np.random.randint(2400,10000,numero_ventas),
                          "cantidad":np.random.randint(1,7,numero_ventas)}
                         )
df_ventas

Unnamed: 0,id_venta,rubro,precio,cantidad
0,0,1,5504,6
1,1,4,8334,4
2,2,3,6777,3
3,3,2,5162,1
4,4,2,4313,2
...,...,...,...,...
95,95,2,3086,4
96,96,4,9090,2
97,97,4,6315,1
98,98,1,5886,2


*Unir los dos DataFrame, usando merge()*

In [None]:
df_merged = df_ventas.merge(df_rubros, left_on="rubro", right_on="id_rubro", validate="many_to_one")
df_merged

Unnamed: 0,id_venta,rubro,precio,cantidad,id_rubro,des_rubro
0,0,1,5504,6,1,calzado
1,7,1,6673,4,1,calzado
2,16,1,4864,6,1,calzado
3,21,1,7666,1,1,calzado
4,24,1,9004,1,1,calzado
...,...,...,...,...,...,...
95,80,0,7992,3,0,vestuario
96,86,0,8070,2,0,vestuario
97,87,0,7251,3,0,vestuario
98,89,0,3789,5,0,vestuario


Otro ejemplo:

Creamos 2 DataFrame: uno de usuarios y otro de pedidos

In [None]:
import pandas as pd
import numpy as np

df_usuarios = pd.DataFrame({
    "id_usuario": [1,2,3,4,5,6],
    "nombre_usuario": ["Angel", "Luis", "Antonio", "Maria", "Luisa", "Marcos"],
    "edad": [25, 18, 35, 19, 24, 45]
})

df_usuarios

Unnamed: 0,id_usuario,nombre_usuario,edad
0,1,Angel,25
1,2,Luis,18
2,3,Antonio,35
3,4,Maria,19
4,5,Luisa,24
5,6,Marcos,45


In [None]:
df_pedidos = pd.DataFrame({
    "id_pedido": [1,2,3,4,5,6,7,8],
    "id_usuario": [1,2,3,3,4,4,4,5],
    "fecha":["2022-01-01","2022-01-01","2022-01-02","2022-01-02","2022-01-02","2022-01-03","2022-01-03","2022-01-04"],
    "producto":["A","B", "A","B","A","A","B","A"],
    "cantidad":[10,5,12,8,5,6,6,15],
    "precio":[100,50,120,80,150,150,100,90]
})
df_pedidos

Unnamed: 0,id_pedido,id_usuario,fecha,producto,cantidad,precio
0,1,1,2022-01-01,A,10,100
1,2,2,2022-01-01,B,5,50
2,3,3,2022-01-02,A,12,120
3,4,3,2022-01-02,B,8,80
4,5,4,2022-01-02,A,5,150
5,6,4,2022-01-03,A,6,150
6,7,4,2022-01-03,B,6,100
7,8,5,2022-01-04,A,15,90


Queremos un informe dettalado de los usuarios con sus pedidos, incluso aquellos usuarios que no han realizado ninguna compra y todos los pedidos independientemente de si tienen usuario asociado o no.

En este caso usamos el outer join

In [None]:
df_merged = df_pedidos.merge(df_usuarios, on = "id_usuario", how = "outer")
df_merged

Unnamed: 0,id_pedido,id_usuario,fecha,producto,cantidad,precio,nombre_usuario,edad
0,1.0,1,2022-01-01,A,10.0,100.0,Angel,25
1,2.0,2,2022-01-01,B,5.0,50.0,Luis,18
2,3.0,3,2022-01-02,A,12.0,120.0,Antonio,35
3,4.0,3,2022-01-02,B,8.0,80.0,Antonio,35
4,5.0,4,2022-01-02,A,5.0,150.0,Maria,19
5,6.0,4,2022-01-03,A,6.0,150.0,Maria,19
6,7.0,4,2022-01-03,B,6.0,100.0,Maria,19
7,8.0,5,2022-01-04,A,15.0,90.0,Luisa,24
8,,6,,,,,Marcos,45


*Creación de columnas calculadas:*

In [None]:
df_merged ["monto_venta"] = df_merged["precio"] * df_merged["cantidad"]
df_merged

Unnamed: 0,id_pedido,id_usuario,fecha,producto,cantidad,precio,nombre_usuario,edad,monto_venta
0,1.0,1,2022-01-01,A,10.0,100.0,Angel,25,1000.0
1,2.0,2,2022-01-01,B,5.0,50.0,Luis,18,250.0
2,3.0,3,2022-01-02,A,12.0,120.0,Antonio,35,1440.0
3,4.0,3,2022-01-02,B,8.0,80.0,Antonio,35,640.0
4,5.0,4,2022-01-02,A,5.0,150.0,Maria,19,750.0
5,6.0,4,2022-01-03,A,6.0,150.0,Maria,19,900.0
6,7.0,4,2022-01-03,B,6.0,100.0,Maria,19,600.0
7,8.0,5,2022-01-04,A,15.0,90.0,Luisa,24,1350.0
8,,6,,,,,Marcos,45,


# ***Tablas Pivote***

In [None]:
df_pivot_reporte1 = pd.pivot_table(
    data = df_merged, # Dataframe
    index = "nombre_usuario", # Columna(s) del DataFrame original que queremos como indice en la tabla de resultados
    values = "monto_venta", # valores a los que les aplicaremos aggfunc
    aggfunc ="sum", # función a aplicar a la columna de valores
    margins = True # generar una fila/columna de totales
)
df_pivot_reporte1

Unnamed: 0_level_0,monto_venta
nombre_usuario,Unnamed: 1_level_1
Angel,1000.0
Antonio,2080.0
Luis,250.0
Luisa,1350.0
Marcos,0.0
Maria,2250.0
All,6930.0


*Para transformar los indices que tenemos en una columna normal:*

In [None]:
df_pivot_reporte1.reset_index()

Unnamed: 0,nombre_usuario,monto_venta
0,Angel,1000.0
1,Antonio,2080.0
2,Luis,250.0
3,Luisa,1350.0
4,Marcos,0.0
5,Maria,2250.0
6,All,6930.0


# ***Transposición de DataFrame***

In [None]:
df_pivot_reporte1.T

nombre_usuario,Angel,Antonio,Luis,Luisa,Marcos,Maria,All
monto_venta,1000.0,2080.0,250.0,1350.0,0.0,2250.0,6930.0


In [None]:
df_pivot_reporte1.transpose()

nombre_usuario,Angel,Antonio,Luis,Luisa,Marcos,Maria,All
monto_venta,1000.0,2080.0,250.0,1350.0,0.0,2250.0,6930.0


# ***Funciones lambda***

In [None]:
df_merged

Unnamed: 0,id_pedido,id_usuario,fecha,producto,cantidad,precio,nombre_usuario,edad,monto_venta
0,1.0,1,2022-01-01,A,10.0,100.0,Angel,25,1000.0
1,2.0,2,2022-01-01,B,5.0,50.0,Luis,18,250.0
2,3.0,3,2022-01-02,A,12.0,120.0,Antonio,35,1440.0
3,4.0,3,2022-01-02,B,8.0,80.0,Antonio,35,640.0
4,5.0,4,2022-01-02,A,5.0,150.0,Maria,19,750.0
5,6.0,4,2022-01-03,A,6.0,150.0,Maria,19,900.0
6,7.0,4,2022-01-03,B,6.0,100.0,Maria,19,600.0
7,8.0,5,2022-01-04,A,15.0,90.0,Luisa,24,1350.0
8,,6,,,,,Marcos,45,


In [None]:
df_pivot_reporte2 = pd.pivot_table(
    data = df_merged,
    index = "producto",
    values = "monto_venta",
    aggfunc = lambda x: x.max() - x.min(), # creamos una función
    margins = True
)
df_pivot_reporte2 = df_pivot_reporte2.rename(columns = {"monto_venta":"rango_venta"})
df_pivot_reporte2

Unnamed: 0_level_0,rango_venta
producto,Unnamed: 1_level_1
A,690.0
B,390.0
All,1190.0


In [None]:
df_pivot_reporte3 = pd.pivot_table(
    data = df_merged,
    index = "producto",
    values = "monto_venta",
    aggfunc = lambda x: (round((x.sum() / df_merged["monto_venta"].sum())*100,2)), # creamos una función
    margins = True
)

df_pivot_reporte3 = df_pivot_reporte3.rename({"monto_venta":"porcentaje_venta"})
df_pivot_reporte3

Unnamed: 0_level_0,monto_venta
producto,Unnamed: 1_level_1
A,78.5
B,21.5
All,100.0


# ***Transformación y limpieza de datos***



***Duplicados***

In [None]:
import pandas as pd

df_amigos = pd.DataFrame ({
    "Nombre": ["Marta","Julio","Carla","Andrés","Mariana","Julio", "Carla"],
    "Edad": [25,18,42,22,63,18,23],
    "Ciudad":["Caracas", "Valencia", "Margarita", "La Guaira", "Puerto Ordaz", "Valencia","Margarita"]
}
)
df_amigos

Unnamed: 0,Nombre,Edad,Ciudad
0,Marta,25,Caracas
1,Julio,18,Valencia
2,Carla,42,Margarita
3,Andrés,22,La Guaira
4,Mariana,63,Puerto Ordaz
5,Julio,18,Valencia
6,Carla,23,Margarita


*Eliminar duplicados*

In [None]:
df_amigos_sin_duplicados = df_amigos.drop_duplicates()
df_amigos_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Marta,25,Caracas
1,Julio,18,Valencia
2,Carla,42,Margarita
3,Andrés,22,La Guaira
4,Mariana,63,Puerto Ordaz
6,Carla,23,Margarita


*Eliminar todas las filas duplicadas basadas en "Nombre" y "Ciudad"*

In [None]:
df_amigos_sin_duplicados = df_amigos.drop_duplicates(subset=["Nombre","Ciudad"])
df_amigos_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Marta,25,Caracas
1,Julio,18,Valencia
2,Carla,42,Margarita
3,Andrés,22,La Guaira
4,Mariana,63,Puerto Ordaz


*Podemos encontrar aquellas filas duplicadas usando duplicated(), y nos devolverá los valores duplicados que existen según los parámetros duplicados*

In [None]:
df_amigos [df_amigos.duplicated()]

Unnamed: 0,Nombre,Edad,Ciudad
5,Julio,18,Valencia


In [None]:
df_amigos [df_amigos.duplicated(subset=["Nombre","Ciudad"])]

Unnamed: 0,Nombre,Edad,Ciudad
5,Julio,18,Valencia
6,Carla,23,Margarita


***Datos faltantes***

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "A":[1,2,np.nan,4],
    "B":[5,np.nan,np.nan,8],
    "C":[9,10,11,12]
})
df

Unnamed: 0,A,B,C
0,1.0,5.0,9
1,2.0,,10
2,,,11
3,4.0,8.0,12


In [None]:
df.isna() # nos arroja True donde exista un dato faltante y False en caso contrario

Unnamed: 0,A,B,C
0,False,False,False
1,False,True,False
2,True,True,False
3,False,False,False


*Podemos combinar las posibilidades para obtener diferentes resultados, por ejemplo:*

obtener la cantidad de nulos en cada columna

In [None]:
df.isna().sum()

A    1
B    2
C    0
dtype: int64

*Eliminar las filas que al menos continen un valor NAN. El valor axis es 0 por defecto*

In [None]:
df.dropna(axis=0)

Unnamed: 0,A,B,C
0,1.0,5.0,9
3,4.0,8.0,12


*Eliminar todas las columnas que tienen al menos un NAN*

In [None]:
df.dropna(axis=1)

Unnamed: 0,C
0,9
1,10
2,11
3,12


*Reemplazar los valores NAN por uno que definamos usando fillna()*

In [None]:
df.fillna(0)

Unnamed: 0,A,B,C
0,1.0,5.0,9
1,2.0,0.0,10
2,0.0,0.0,11
3,4.0,8.0,12


*Obtener los tipos de datos de las columnas originales del df*

In [None]:
df.dtypes

A    float64
B    float64
C      int64
dtype: object

*Obtener los tipos de datos de las columnas luego de haber reemplazado los NAN por un string*

In [None]:
df.fillna("p").dtypes

A    object
B    object
C     int64
dtype: object

# ***Metodo apply***

In [None]:
import pandas as pd

data = {
    "Nombre": ["Andres", "Luis", "Carolina"],
    "Edad": [28,35,36],
    "Puntaje": [2000, 500, 3600]
}

df = pd.DataFrame(data)
df


Unnamed: 0,Nombre,Edad,Puntaje
0,Andres,28,2000
1,Luis,35,500
2,Carolina,36,3600


In [None]:
df["Puntaje"].apply(lambda x: x + 1)

0    2001
1     501
2    3601
Name: Puntaje, dtype: int64

*También podemos pedir que sume un 1 a cada valor de la columna si el valor es mayor a 5000 (y si no dejarlo como estaba)*

In [None]:
df["Puntaje"].apply(lambda x: x + 1 if x > 3000 else x)

0    2000
1     500
2    3601
Name: Puntaje, dtype: int64

***applymap()***

El método applymap() permite apuntar a cada celda del Data Frame por separado. A diferencia de apply() que se aplica a lo largo de un eje de un DataFrame (fila o columna). La funcion applymap() se aplica a cada elemento de manera individual.

Por ejemplo si queremos transformar a mayúscula si la celda es string, o dividir por 100 si no lo es, se aplica el siguiente código:

In [None]:
df.applymap(lambda x: x.upper() if type(x) == str else x/100)

Unnamed: 0,Nombre,Edad,Puntaje
0,ANDRES,0.28,20.0
1,LUIS,0.35,5.0
2,CAROLINA,0.36,36.0


In [None]:
data = {'texto': ['Hoy es un gran día para empezar a aprender algo nuevo! #motivación','Estoy muy emocionado por el partido de esta noche! #vamosequipo',
                  'Qué triste noticia la pérdida de un gran artista como Chadwick Boseman #RIPChadwickBoseman','¡Qué maravilloso día en el parque con la familia! #familia #naturaleza #airelibre','No puedo creer lo que acabo de ver en las noticias. #indignación #justiciaparaMauricio','¡Feliz cumpleaños a mi mejor amiga! #amistad #celebración #cumpleaños'],
        'texto2': ['Hoy hace un día increíble en la playa! #playa #verano', 'Acabo de ver la última película de mi actor favorito. ¡Qué actuación increíble! #cine #actuación','Estoy emocionado por mi próximo viaje a Europa. ¡No puedo esperar para explorar nuevos lugares! #viaje #exploración','Acabo de comenzar a leer un nuevo libro y ya estoy enganchado. #lectura #libros','¡Feliz día de la independencia a todos! #díadelaindependencia #patriotismo #fiesta','Aprendiendo a programar hoy. ¡Es difícil pero emocionante! #programación #desarrollo']}

df5 = pd.DataFrame(data)
df5

Unnamed: 0,texto,texto2
0,Hoy es un gran día para empezar a aprender alg...,Hoy hace un día increíble en la playa! #playa ...
1,Estoy muy emocionado por el partido de esta no...,Acabo de ver la última película de mi actor fa...
2,Qué triste noticia la pérdida de un gran artis...,Estoy emocionado por mi próximo viaje a Europa...
3,¡Qué maravilloso día en el parque con la famil...,Acabo de comenzar a leer un nuevo libro y ya e...
4,No puedo creer lo que acabo de ver en las noti...,¡Feliz día de la independencia a todos! #díade...
5,¡Feliz cumpleaños a mi mejor amiga! #amistad #...,Aprendiendo a programar hoy. ¡Es difícil pero ...


*Si nos pide encontrar todos los  hashtag y mostrarlos de forma organizada, que nos permita saber en cual texto encontramos cada hashtag, utilizaremos el siguiente código:*

In [None]:
df5.applymap(lambda x:[i for i in x.split() if "#" in i])

Unnamed: 0,texto,texto2
0,[#motivación],"[#playa, #verano]"
1,[#vamosequipo],"[#cine, #actuación]"
2,[#RIPChadwickBoseman],"[#viaje, #exploración]"
3,"[#familia, #naturaleza, #airelibre]","[#lectura, #libros]"
4,"[#indignación, #justiciaparaMauricio]","[#díadelaindependencia, #patriotismo, #fiesta]"
5,"[#amistad, #celebración, #cumpleaños]","[#programación, #desarrollo]"


# ***Reemplazo de datos***

In [None]:
import pandas as pd

data = {'producto':['camiseta negro S','camiseta rojo S','camiseta negro S','camiseta azul L','camiseta azul M','pantalón azul M','zapatos negro L','zapatos rojo L','zapatos azul L'],
        'precio': np.random.randint(1000, 5000, 9)}

df = pd.DataFrame(data)
df

Unnamed: 0,producto,precio
0,camiseta negro S,3218
1,camiseta rojo S,1355
2,camiseta negro S,1200
3,camiseta azul L,4124
4,camiseta azul M,1574
5,pantalón azul M,1400
6,zapatos negro L,4380
7,zapatos rojo L,2959
8,zapatos azul L,1105


Por ejemplo, queremos reemplazar "camiseta negro S" por "camiseta agotada.

Usaremos replace()

In [None]:
df.replace("camiseta negro S","camiseta - agotado")

Unnamed: 0,producto,precio
0,camiseta - agotado,3218
1,camiseta rojo S,1355
2,camiseta - agotado,1200
3,camiseta azul L,4124
4,camiseta azul M,1574
5,pantalón azul M,1400
6,zapatos negro L,4380
7,zapatos rojo L,2959
8,zapatos azul L,1105


*Reemplazar utilizando un diccionario*

In [None]:
replace_dict = {"camiseta negro S":"camiseta - agotado", "pantalón azul M": "pantalón - agotado"}
df_replaced = df.replace(replace_dict)
df_replaced

Unnamed: 0,producto,precio
0,camiseta - agotado,3218
1,camiseta rojo S,1355
2,camiseta - agotado,1200
3,camiseta azul L,4124
4,camiseta azul M,1574
5,pantalón - agotado,1400
6,zapatos negro L,4380
7,zapatos rojo L,2959
8,zapatos azul L,1105


Reemplazar utilizando expresiones regulares (regex), que es una herramienta poderosa para buscar y manipular cadenas de texto en Python y otros lenguajes de programación a partir de una secuencia de caracteres, que define un patrón de búsqueda

In [None]:
df_replaced.replace({"producto":r"agotad"}, {"producto":"descontinuad"}, regex=True)

Unnamed: 0,producto,precio
0,camiseta - descontinuado,3218
1,camiseta rojo S,1355
2,camiseta - descontinuado,1200
3,camiseta azul L,4124
4,camiseta azul M,1574
5,pantalón - descontinuado,1400
6,zapatos negro L,4380
7,zapatos rojo L,2959
8,zapatos azul L,1105


*Ejercicio reemplazo de datos*

In [None]:
import pandas as pd
import numpy as np

data = {"producto": ["A","B","C","D",np.nan,np.nan,"G","H"], "precio":[100,200,300,400,500,600,700,800]}

df = pd.DataFrame(data)
df

Unnamed: 0,producto,precio
0,A,100
1,B,200
2,C,300
3,D,400
4,,500
5,,600
6,G,700
7,H,800


*Valores nulos: opción 1*

In [None]:
df["producto"].fillna("sin información")

0                  A
1                  B
2                  C
3                  D
4    sin información
5    sin información
6                  G
7                  H
Name: producto, dtype: object

*Valores nulos: opción 2*

In [None]:
df["producto"] = df["producto"].fillna({4:"E",5:"F"})
df

Unnamed: 0,producto,precio
0,A,100
1,B,200
2,C,300
3,D,400
4,E,500
5,F,600
6,G,700
7,H,800


*Reemplazo de datos: opción 1*

In [None]:
df.replace("A","Producto A")

Unnamed: 0,producto,precio
0,Producto A,100
1,B,200
2,C,300
3,D,400
4,E,500
5,F,600
6,G,700
7,H,800


*Reemplazo de datos: opción 2*

In [None]:
df.replace({"A": "Producto A", "B": "Producto B","C": "Producto C","D": "Producto D","E": "Producto E","F": "Producto F","G": "Producto G","H": "Producto H"})

Unnamed: 0,producto,precio
0,Producto A,100
1,Producto B,200
2,Producto C,300
3,Producto D,400
4,Producto E,500
5,Producto F,600
6,Producto G,700
7,Producto H,800


# ***Discretización de datos***

***Método pd.cut()***

In [None]:
import pandas as pd

# creación del DataFrame
df = pd.DataFrame({"edad": [20,25,30,35,40,45,50,55,60,65]})

# discretizar los datos en intervalos
intervalos = [0,30,40,50,100] # definir los valores deseados

# etiquetas para las categorías
etiquetas = ["Joven", "Adulto joven", "Adulto", "Adulto mayor"]

# discretizar y devolver valores en lugar de intervalos
df["grupo edad"] = pd.cut(df["edad"], bins=intervalos, labels=etiquetas)

df

Unnamed: 0,edad,grupo edad
0,20,Joven
1,25,Joven
2,30,Joven
3,35,Adulto joven
4,40,Adulto joven
5,45,Adulto
6,50,Adulto
7,55,Adulto mayor
8,60,Adulto mayor
9,65,Adulto mayor


*Tambien podemos usar pd.cut() para que los valores discretos de salida sean numericos, es decir usar etiquetas númericas.*

In [None]:
import pandas as pd

# creación del DataFrame
df = pd.DataFrame({"edad": [20,25,30,35,40,45,50,55,60,65]})

# discretizar los datos en intervalos
intervalos = [0,30,40,50,100] # definir los valores deseados

# etiquetas para las categorías
etiquetas = [1,2,3,4]

# discretizar y devolver valores en lugar de intervalos
df["grupo edad"] = pd.cut(df["edad"], bins=intervalos, labels=etiquetas)

# convertir columna resultante a númerica
df["grupo edad"] = pd.to_numeric(df["grupo edad"])

df

Unnamed: 0,edad,grupo edad
0,20,1
1,25,1
2,30,1
3,35,2
4,40,2
5,45,3
6,50,3
7,55,4
8,60,4
9,65,4


*También podemos convertir una columna númerica usando astype()*

In [None]:
import pandas as pd

# creación del DataFrame
df = pd.DataFrame({"edad": [20,25,30,35,40,45,50,55,60,65]})

# discretizar los datos en intervalos
intervalos = [0,30,40,50,100] # definir los valores deseados

# etiquetas para las categorías
etiquetas = [1,2,3,4]

# discretizar y devolver valores en lugar de intervalos
df["grupo edad"] = pd.cut(df["edad"], bins=intervalos, labels=etiquetas)

# convertir columna resultante a númerica
df.astype({"grupo edad": "int64"}).dtypes

df

Unnamed: 0,edad,grupo edad
0,20,1
1,25,1
2,30,1
3,35,2
4,40,2
5,45,3
6,50,3
7,55,4
8,60,4
9,65,4


***Método np.where()***

In [None]:
import numpy as np

numeros = np.array([-1,2,3,-4,5])
clasificacion = np.where(numeros >=0,"positivo", "negativo")
clasificacion

array(['negativo', 'positivo', 'positivo', 'negativo', 'positivo'],
      dtype='<U8')

*Ejemplo:*

In [None]:
import pandas as pd

# creación DataFrame
data = {"Nombre": ["Ana", "Juan","Marcos", "Petra", "Lucia"], "Ingresos": [20000, 45000,50000,85000,63000]}
df= pd.DataFrame(data)

# definir un umbral para clasificar los ingresos
umbral = 50000

# utilizar np.where() para clasificar los ingresos
df["Clasificacion"] = np.where(df["Ingresos"] >= umbral, "Alto","Bajo")

df

Unnamed: 0,Nombre,Ingresos,Clasificacion
0,Ana,20000,Bajo
1,Juan,45000,Bajo
2,Marcos,50000,Alto
3,Petra,85000,Alto
4,Lucia,63000,Alto


***Método pd.get_dummies()***

In [None]:
import pandas as pd

data = {"Nombre": ["Ana", "Juan","Marcos", "Petra", "Lucia"], "Nacionalidad": ["N", "N","E","E","N"]}
df= pd.DataFrame(data)

pd.get_dummies(df, columns = ["Nacionalidad"])


Unnamed: 0,Nombre,Nacionalidad_E,Nacionalidad_N
0,Ana,False,True
1,Juan,False,True
2,Marcos,True,False
3,Petra,True,False
4,Lucia,False,True


*Podemos eliminar una columna, puesto que es repetitivo.*

*Usamos drop_first() y se elimina la primera columna y queda consolidado*

In [None]:
pd.get_dummies(df, columns = ["Nacionalidad"],drop_first=True)

Unnamed: 0,Nombre,Nacionalidad_N
0,Ana,True
1,Juan,True
2,Marcos,False
3,Petra,False
4,Lucia,True


# ***Manipulación de Strings***

In [None]:
import pandas as pd

data = {"Pasajero": ["Ana", "Juan","Marcos", "Petra", "Lucia"], "Nacionalidad": ["N", "N","E","E","N"]}
df= pd.DataFrame(data)

df["Pasajero"].str.lower()

0       ana
1      juan
2    marcos
3     petra
4     lucia
Name: Pasajero, dtype: object

In [None]:
df["Pasajero"].str.upper()


0       ANA
1      JUAN
2    MARCOS
3     PETRA
4     LUCIA
Name: Pasajero, dtype: object

# ***Manipulación de Data & Time***

In [None]:
import pandas as pd

data = {"Empleado": ["Ana", "Juan","Marcos", "Petra", "Lucia"], "Fecha_incorporacion": ["2022-01-30", "2021-12-01","2024-02-15","2022-10-30","2023-03-04"]}
df= pd.DataFrame(data)
df

Unnamed: 0,Empleado,Fecha_incorporacion
0,Ana,2022-01-30
1,Juan,2021-12-01
2,Marcos,2024-02-15
3,Petra,2022-10-30
4,Lucia,2023-03-04


In [None]:
df["Fecha_incorporacion"] = pd.to_datetime(df["Fecha_incorporacion"])

df["Fecha_incorporacion"].dt.year

0    2022
1    2021
2    2024
3    2022
4    2023
Name: Fecha_incorporacion, dtype: int32

In [98]:
import pandas as pd

data = {"Empleado": ["Ana", "Juan","Marcos", "Petra", "Lucia"], "Fecha": ["2022-01-30", "2021-12-01","2024-02-15","2022-10-30","2023-03-04"]}
df= pd.DataFrame(data)

# convertir a formato fecha y hora de Pandas
df["Fecha"] = pd.to_datetime(df["Fecha"])

df["año"] = df["Fecha"].dt.year

# extraer el mes de la fecha
df["mes"] = df["Fecha"].dt.month

# extraer el nombre del mes de la fecha
df["nombre_mes"] = df["Fecha"].dt.month_name()

df

Unnamed: 0,Empleado,Fecha,año,mes,nombre_mes
0,Ana,2022-01-30,2022,1,January
1,Juan,2021-12-01,2021,12,December
2,Marcos,2024-02-15,2024,2,February
3,Petra,2022-10-30,2022,10,October
4,Lucia,2023-03-04,2023,3,March


*Cambiar formato de fechas*

En pandas el formato es YYYY-MM-DD.

Por ejemplo tenemos un DataFrame con un formato diferente (dd-mm-yyyy). Podemos transformarlo al formato de Pandas de la siguiente manera:

In [None]:
import pandas as pd

data = {"Fecha": ["30-01-2022", "01-12-2021","15-02-2024","30-10-2022","04-03-2023"]}
df= pd.DataFrame(data)

df["Fecha"] = pd.to_datetime(df["Fecha"], format = "%d-%m-%Y")

print(df["Fecha"])

0   2022-01-30
1   2021-12-01
2   2024-02-15
3   2022-10-30
4   2023-03-04
Name: Fecha, dtype: datetime64[ns]


*Filtrado por fecha*

In [None]:
import pandas as pd

data = {"Fecha": ["2022-01-30", "2022-01-15","2022-01-12","2022-10-30","2023-03-04"]}
df= pd.DataFrame(data)

df["Fecha"] = pd.to_datetime(df["Fecha"])

df_mayo = df[(df["Fecha"] >= "2022-01-01") & (df["Fecha"] <= "2022-01-31")]
df_mayo

Unnamed: 0,Fecha
0,2022-01-30
1,2022-01-15
2,2022-01-12
