        MANEJO DE VALORES NULOS CON PANDAS

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import time # para medir el tiempo de ejecucion
from datetime import datetime # para convertir a datetime
import re # para usar expresiones regulares regex

# esta line es para que las gráficas se vean en el notebook
%matplotlib inline 
plt.style.use('seaborn-v0_8-whitegrid')

Dataframe con valores nulos

In [None]:
data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Nombre': ['Ana', 'Carlos', np.nan, 'Diana', 'Eduardo', 'Fernanda', 'Gustavo', np.nan, 'Irene', 'Juan'],
    'Edad': [25, np.nan, 32, 28, np.nan, 22, 35, 40, np.nan, 30],
    'Puntuacion': [85, 92, np.nan, 78, 88, np.nan, np.nan, 95, 82, 90],
    'Departamento': ['Ventas', np.nan, 'IT', 'Ventas', 'IT', 'RH', 'RH', 'IT', np.nan, 'Ventas'],
    'Fecha_ingreso': ['2020-01-15', '2019-03-22', np.nan, '2021-06-10', '2018-11-05', np.nan, '2022-02-28', '2017-09-12', '2020-07-19', np.nan]
}

df= pd.DataFrame(data)
df

In [None]:
# valores nulos en la tabla, si es true, es nulo
df.isnull()  # Total de valores nulos por columna

In [None]:
# contar valores nulos por columna
df.isnull().sum()  

In [None]:
# contar valores nulos por fila
df.isnull().sum(axis=1)  

In [None]:
# verificar si hay valores nulos en el DataFrame
df.isnull().values.any().any()  # True si hay valores nulos en el DataFrame, fila y columna

In [None]:
# promedio de valores nulos
df.isnull().mean()*100  # Promedio de valores nulos por columna

In [None]:
# promedio de valores nulos por fila
df.isnull().mean(axis=1)*100  

Manipulación de valores nulos


In [None]:
# porcentaje de valores nulos por columna
df_II = df.dropna()
df_II

In [None]:
df

In [None]:
#eliminar filas solo si todas las columnas son nulas
df.dropna(how='all')  # Eliminar filas solo si todas las columnas son nulas
df

In [None]:
df_III = pd.DataFrame( {
    'ID': [None, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Nombre': [np.nan, 'Carlos', np.nan, 'Diana', 'Eduardo', 'Fernanda', 'Gustavo', np.nan, 'Irene', 'Juan'],
    'Edad': [None, np.nan, 32, 28, np.nan, 22, 35, 40, np.nan, 30],
    'Puntuacion': [np.nan,np.nan, np.nan, None, None, np.nan, np.nan, None, None, None],
    'Departamento': [None, np.nan, 'IT', 'Ventas', 'IT', 'RH', 'RH', 'IT', np.nan, 'Ventas'],
    'Fecha_ingreso': [None, '2019-03-22', np.nan, '2021-06-10', '2018-11-05', np.nan, '2022-02-28', '2017-09-12', '2020-07-19', np.nan]
})
df_III


In [None]:
# Eliminar filas solo si todas las columnas son nulas
df_III.dropna(how='all')  

In [None]:
# Eliminar columnas solo si todas las filas son nulas
df_III.dropna(axis=1, how='all')  

In [None]:
# elimiminar columna si tiene un numero repetido de nulos
df.dropna(thresh=8, axis=1)  # thresh=8, axis=1 Eliminar columnas si tienen menos de 7 valores no nulos


Reemplazo de valores faltantes

In [None]:
df

In [None]:
# Rellenar valores nulos con un valor especifico
df.fillna(0)  


In [None]:
# rellnar valores nulos con texto
df.fillna('Sin nombre')  

In [None]:
# rellenar con ceros y texto
value_replace = {
    col: 0 if df[col].dtype in ['int64', 'float64'] else 'Sin nombre' for col in df.columns
}
value_replace

In [None]:
# Relleno personalizado
df.fillna(value_replace)  # Rellenar valores nulos con 0 y 'Sin nombre' dependiendo del tipo de dato


In [None]:
# rellenar con el promedio de la columna
df.fillna(df.mean(numeric_only=True))  # Rellenar valores nulos con el promedio de la columna

In [None]:
# rellenar con el valor anterior o siguiente
df.fillna(method='ffill')  # Rellenar valores nulos con el valor siguiente (forward fill)
             

In [None]:
df.fillna(method='bfill')  # Rellenar valores nulos con el valor anterior (before fill)


In [None]:
# Relleno con interpolacion
df.interpolate()  #solo rellena para columnas numericas

In [None]:
# relleno con valores especificos por columna / es una de las mejores opciones
df.fillna({'ID': 0, 'Nombre': 'Sin nombre',
           'Edad': 0, 'Puntuacion': 0, 
           'Departamento': 'Sin departamento', 
           'Fecha_ingreso': 'Sin fecha'
           })  # Rellenar valores nulos con un valor especifico por columna


In [None]:
#declarar el diccionario de reemplazo
value_replace = {
    'ID': 0,
    'Nombre': 'Sin nombre',
    'Edad': 0,
    'Puntuacion': 0,
    'Departamento': 'Sin departamento',
    'Fecha_ingreso': 'Sin fecha'
}
# Rellenar valores nulos con un valor especifico por columna
df.fillna(value=value_replace)  # Rellenar valores nulos con un valor especifico por columna

In [None]:
# rellenar con el promedio de la columna
value_replace = {
    'ID': 0,
    'Nombre': 'Sin nombre',
    'Edad': df['Edad'].mean(),
    'Puntuacion': df['Puntuacion'].mean(),
    'Departamento': 'Sin departamento',
    'Fecha_ingreso': 'Sin fecha'
}
df.fillna(value=value_replace)  # Rellenar valores nulos con un valor especifico por columna


MANEJO DE VALORES ATIPICOS

In [None]:
# dataframe con valores atipicos
df_outliers = pd.DataFrame({
    'Valor' : np.concatenate([np.random.normal(100, 10, 97), [200,5,250]])
})

df_outliers

In [None]:
#1. estadistica descriptiva
df_outliers.describe()  # Descripcion de los datos

In [None]:
# máximo de los datos
df_outliers['Valor'].max()  

In [None]:
 # Minimo de los datos
df_outliers['Valor'].min() 

In [None]:
#2. rango intercuartilico. es una medida de dispersion que tan dispersos estan los datos centrales de un conjunto
Q1 = df_outliers['Valor'].quantile(0.25)  # Primer cuartil
Q3 = df_outliers['Valor'].quantile(0.75)  # Tercer cuartil
IQR = Q3 - Q1  # Rango intercuartilico
IQR

In [None]:
#limities inferior
lower_limit = Q1 - 1.5 * IQR  # Limite inferior
lower_limit

In [None]:
#limite superior
upper_limit = Q3 + 1.5 * IQR  # Limite superior
upper_limit

In [None]:
#identificacion de valores atipicos outliers
outliers = df_outliers[(df_outliers['Valor'] < lower_limit) | 
                       (df_outliers['Valor'] > upper_limit)]  
outliers


In [None]:
# eliminando valores atipicos outliers
df_outliers_clear = df_outliers[(df_outliers['Valor'] >= lower_limit) &
                                (df_outliers['Valor'] <= upper_limit)] # Eliminacion de valores atípicos
df_outliers_clear

In [None]:
# Descripcion de los datos sin outliers
df_outliers_clear.describe()  

FILTRADO AVANZADOS DE DATOS


In [None]:
# dataframe 
df = pd.DataFrame({
    'Valor': range(1, 6),
    'Valor_2': range(10,0,-2),
    'Letras': ['a', 'b', 'c', 'd', 'e'],
    'Boleanos': [True, False, True, False, True],
    })
df

In [None]:
# filtrar por medio de query. query es una forma de filtrar datos en un DataFrame de pandas
df.query('Valor > 2 and Valor_2 <= 6')  # Filtrar por medio de query

In [None]:
#utilizando variables en query
valor_max= 4
df.query('Valor > @valor_max')  # con el @ se indica que es una variable de python


In [None]:
# con eval() para calcular una nueva columna
df.eval('Valor_3 = Valor + Valor_2')  


In [None]:
# creando una nueva columna en el DataFrame original, gracias a inplace=True
df.eval('Valor_3 = Valor * 2', inplace=True)  
df

seleccion avanzada de columnas con .loc, .iloc, .at e .iat


In [None]:
# con .loc nos permite seleccionar filas y columnas por etiquetas
df.loc[0:2, ['Valor', 'Valor_2']]  

In [None]:
df.loc[1:3, ['Valor', 'Letras']]

In [None]:
# con .iloc nos permite seleccionar filas y columnas por indices
df.iloc[0:2, 0:2]

In [None]:
df

In [None]:
df.iloc[1:4,[0,2]]  # Seleccion de filas y columnas con iloc

In [None]:
# usando condicionales en .loc
df.loc[df['Valor'] > 2, ['Valor_2', 'Letras']]  

In [None]:
# acceso a un solo valor con .at
df.at[2, 'Valor_2'] 


In [None]:
# acceso a un solo valor con .iat
df.iat[2, 1]  

MODIFICACION DE DATOS CON APPLY, MAP, APPLYMAP


In [None]:
# nuevo dataframe
df= pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': ['a', 'b', 'c', 'd', 'e']
})
    

In [None]:
df

In [None]:
# 1. Apply()
# usando apply para aplicar una funcion a cada columna
# se debe pedir que solo sean columnas numericas
df.select_dtypes(include=[np.number]).apply(lambda x: x.max() - x.min())  # Aplicar una funcion a cada columna


In [None]:
# usando apply para aplicar una funcion a cada fila numerica
df.select_dtypes(include=[np.number]).apply(lambda x: x.max() - x.min(), axis=1)  # Aplicar una funcion a cada fila numerica

In [None]:
df.select_dtypes(include=[np.number]).sum(axis=1)  # Aplicar una funcion a cada fila numerica


In [None]:
# Map()
# en la columna C, reemplazar los valores por su respectivo nombre usando map()

df['C'].map({
    'a': 'Anderson',
    'b': 'Benjamin',
    'c': 'Catherine',
    'd': 'David',
    'e': 'Edward'
})

df 


In [None]:
#creando una nueva columna con el resultado de map()
df['D'] = df['C'].map({
    'a': 'Anderson',
    'b': 'Benjamin',
    'c': 'Catherine',
    'd': 'David',
    'e': 'Edward'
})
df

In [None]:
# funcion lambda con map()
df['D'].map(lambda x: x.upper())  # Convertir los valores a mayusculas usando map() y lambda


In [None]:
# usando una funcion en map()
df['A'].map(lambda x: x**2)  # Elevar al cuadrado los valores de la columna A usando map() y lambda

In [None]:
# guardando el resultado en una nueva columna
df['E'] = df['A'].map(lambda x: x**2)  # Elevar al cuadrado los valores de la columna A usando map() y lambda
df

In [None]:
# usando map para aplicar una funcion a cada elemento del DataFrame
df.map(lambda x: str(x) + '!' if isinstance(x, (int, float)) else x.upper())  # Aplicar una funcion a cada elemento del DataFrame


In [None]:
# se puede usar map() 
df.map(lambda x: str(x) + '!' if isinstance(x, (int, float)) else x.upper())  # Aplicar una funcion a cada elemento del DataFrame


MODIFICACIONES VECTORIZADAS VS ITERATIVAS 

In [None]:
n = 1000
df_big = pd.DataFrame({
    'A': np.random.randint(1,100,n),
    'B': np.random.randint(1,100,n)
})
df_big.tail()

In [None]:
# 1. ITERATIVO  CON UN BUCLE FOR
start_time = time.time()
resutltado_for = []
for i in range(len(df_big)):
    resutltado_for.append(df_big.iloc[i]['A'] * df_big.iloc[i]['B'])
time_for = time.time() - start_time

In [None]:
time_for

In [None]:
resutltado_for

In [None]:
# 2. ITERATIVO CON APPLY
start_time = time.time()
resultado_apply = df_big.apply(lambda x: x['A'] * x['B'], axis=1)
time_apply = time.time() - start_time


In [None]:
time_apply

In [None]:
resultado_apply

In [None]:
# 3. VECTORIZADO CON NUMPY
start_time = time.time()
resultado_numpy = df_big['A'].values * df_big['B'].values 
time_numpy = time.time() - start_time


In [None]:
time_numpy

In [None]:
resultado_numpy

In [None]:
# comparacion de los 3 metodos
times = [time_for, time_apply, time_numpy]
methods = ['for', 'apply', 'numpy']
pd.DataFrame({'metodo': methods, 'tiempo': times})  # Comparacion de los 3 metodos
plt.bar(methods, times)
plt.title('Comparacion de metodos')
plt.yscale('log')  # Escala logaritmica para la grafica
plt.grid(axis='y', linestyle='--', alpha=0.3)  # Lineas de la grilla
plt.xlabel('Metodo')
plt.ylabel('Tiempo (s)')
for i, v in enumerate(times):
    plt.text(i, v * 1.1, f'{v: 2f}', ha='center', fontsize=10)  # Texto en la grafica


plt.show()  # Mostrar la grafica de comparacion de metodos



MANIPULACION DE STRINGS

In [None]:
# SERIE CON STRINGS
s = pd.Series(['  python_ciencia_datos  ', 'john_doe@gmail.com', 
               'CIENCIA de datos', ' Analisis Datos ',
               'python_3.8.5', 'numpy 2.2.5'])
s


In [None]:
# OPERACIONES CON STRINGS
s.str.lower()  # Convertir a minusculas

In [None]:
s.str.upper() # Convertir a mayusculas

In [None]:
s.str.strip() # Eliminar espacios en blanco al inicio y al final

In [None]:
s.str.replace('_', ' ')  # Reemplazar espacios en blanco por nada

In [None]:
# EXTRACCION DE INFORMACION
s.str.contains('datos', case=False)  # extraer la palabra datos de la serie, case=False para que no distinga entre mayusculas y minusculas

In [None]:
s.str[0:5]  # Extraer los primeros 5 caracteres de la serie

In [None]:
# DIVISION DE STRINGS
s.str.split(' ')  # Dividir la serie por el caracter ' ' 

In [None]:

s.str.split('_', expand=True)  # Dividir la serie por el caracter _ y expandir en columnas

EXPRESIONES REGULARES

In [None]:
s_number = pd.Series([
    'sales: 156.45 ϵ', 
    'price: 44.56', 
    'no number',
    'quantity: 77.00'
])
s_number

In [None]:
# extraer el numero de la serie
s_number.str.extract(r'(\d+\.\d+)')  

In [None]:
s_emails = pd.Series([
    'john_dou@gmail.com',
    'peter@gmail', 
    'smith_01@gmail.com',
    'george.201@dominio.org',
    'ana_gmail.com',
    'lily@gmail.c'
])
s_emails
    
    

In [None]:
# verificar si es un email valido
s_emails.str.contains(r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$')  # Verificar si es un email valido

In [None]:

s_emails.str.match(r'^[a-zA-Z0-9_.%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}+$')  # Verificar si es un email valido


In [192]:
import pandas as pd
from datetime import datetime 
import numpy as np

MANIPULACION Y USOS DE FECHAS

In [193]:
df_date_str  = pd.DataFrame({
    'Fecha': ['2020-01-15', '2019-03-22',
              '2021-06-10', '2018-11-05', 
              '2022-02-28'],
    'Hora': ['10:30:05', '12:45:50', 
             '14:15:23', '09:00:32', 
             '16:30:57'],
    'Fecha_hora': ['2020-01-15 10:30:05', 
                   '2019-03-22 12:45:50',
                   '2021-06-10 14:15:23',
                   '2018-11-05 09:00:32', 
                   '2022-02-28 16:30:57']   
})
df_date_str

Unnamed: 0,Fecha,Hora,Fecha_hora
0,2020-01-15,10:30:05,2020-01-15 10:30:05
1,2019-03-22,12:45:50,2019-03-22 12:45:50
2,2021-06-10,14:15:23,2021-06-10 14:15:23
3,2018-11-05,09:00:32,2018-11-05 09:00:32
4,2022-02-28,16:30:57,2022-02-28 16:30:57


In [194]:
# convertir fecha strigs a datetime
df_date_str['Fecha_date'] = pd.to_datetime(df_date_str['Fecha'])  # Convertir fecha a datetime
df_date_str['Hora_date'] = pd.to_datetime(df_date_str['Hora'], format='%H:%M:%S')  # Convertir hora a datetime
df_date_str['Fecha_hora_date'] = pd.to_datetime(df_date_str['Fecha_hora'])  # Convertir fecha y hora a datetime
df_date_str.dtypes  # Verificar el tipo de dato de cada columna


Fecha                      object
Hora                       object
Fecha_hora                 object
Fecha_date         datetime64[ns]
Hora_date          datetime64[ns]
Fecha_hora_date    datetime64[ns]
dtype: object

In [195]:
df_date_str# Verificar la columna de fechas convertidas a datetime
df_date_str 
df_date = df_date_str.copy()  # Copiar el DataFrame original para no modificarlo
df_date 


Unnamed: 0,Fecha,Hora,Fecha_hora,Fecha_date,Hora_date,Fecha_hora_date
0,2020-01-15,10:30:05,2020-01-15 10:30:05,2020-01-15,1900-01-01 10:30:05,2020-01-15 10:30:05
1,2019-03-22,12:45:50,2019-03-22 12:45:50,2019-03-22,1900-01-01 12:45:50,2019-03-22 12:45:50
2,2021-06-10,14:15:23,2021-06-10 14:15:23,2021-06-10,1900-01-01 14:15:23,2021-06-10 14:15:23
3,2018-11-05,09:00:32,2018-11-05 09:00:32,2018-11-05,1900-01-01 09:00:32,2018-11-05 09:00:32
4,2022-02-28,16:30:57,2022-02-28 16:30:57,2022-02-28,1900-01-01 16:30:57,2022-02-28 16:30:57


In [196]:
# adquirir componentes de la fecha
df_date['Fecha_date'].dt.year  # Extraer el año de la fecha

0    2020
1    2019
2    2021
3    2018
4    2022
Name: Fecha_date, dtype: int32

In [197]:
df_date['Fecha_date'].dt.month  # Extraer el mes de la fecha

0     1
1     3
2     6
3    11
4     2
Name: Fecha_date, dtype: int32

In [198]:
df_date['Hora_date'].dt.hour  # Extraer la hora de la fecha

0    10
1    12
2    14
3     9
4    16
Name: Hora_date, dtype: int32

In [199]:
df_date['Fecha_date'].dt.day # Extraer el dia de la fecha

0    15
1    22
2    10
3     5
4    28
Name: Fecha_date, dtype: int32

In [200]:
df_date['Fecha_date'].dt.day_name()  # Extraer el nombre del dia de la fecha    

0    Wednesday
1       Friday
2     Thursday
3       Monday
4       Monday
Name: Fecha_date, dtype: object

In [201]:
# manipular horas   
df_date['Hora_date'].dt.hour  # Extraer la hora de la fecha

0    10
1    12
2    14
3     9
4    16
Name: Hora_date, dtype: int32

In [202]:
df_date['Hora_date'].dt.minute  # Extraer el minuto de la fecha

0    30
1    45
2    15
3     0
4    30
Name: Hora_date, dtype: int32

In [203]:
df_date['Hora_date'].dt.second  # Extraer el segundo de la fecha

0     5
1    50
2    23
3    32
4    57
Name: Hora_date, dtype: int32

In [204]:
# sumar dias a una fecha
df_date['Fecha_date'] + pd.Timedelta(days=5)  # Sumar 5 dias a la fecha

0   2020-01-20
1   2019-03-27
2   2021-06-15
3   2018-11-10
4   2022-03-05
Name: Fecha_date, dtype: datetime64[ns]

In [205]:
# diferencias entre fechas
date_start =  df_date['Fecha_hora_date'].min()  
date_end = df_date['Fecha_hora_date'].max()  
date_dif = date_end - date_start  
date_dif  

Timedelta('1211 days 07:30:25')

In [206]:
# Creacion de un rango de fechas
date_range = pd.date_range(start='2025-01-01',periods= 12, freq='MS')  # Rango de fechas
date_range

DatetimeIndex(['2025-01-01', '2025-02-01', '2025-03-01', '2025-04-01',
               '2025-05-01', '2025-06-01', '2025-07-01', '2025-08-01',
               '2025-09-01', '2025-10-01', '2025-11-01', '2025-12-01'],
              dtype='datetime64[ns]', freq='MS')

Leyenda de frecuencia

-'D' dia a dia

-'W' cada semana

-'MS' inicio del mes

-'ME' fin de mes

-'Q' trimestral (fin de semana)

-'A' anual(fin de año)

In [207]:
# series temporales
np.random.seed(40)  # Semilla para reproducibilidad
fechas_dias = pd.date_range(start='2025-01-01', end='2025-03-31', freq='D')  # Rango de fechas
valores_dias = np.random.randint(10, 100, size=len(fechas_dias))  # Valores aleatorios
s_dias = pd.Series(valores_dias, index=fechas_dias)  # Serie temporal
s_dias.head()  # Mostrar los primeros 5 valores de la serie temporal

2025-01-01    80
2025-01-02    17
2025-01-03    47
2025-01-04    66
2025-01-05    60
Freq: D, dtype: int32

In [208]:
# Agrupar por mes y sumar los valores
s_dias.resample('MS').sum()  # resample('MS')  


2025-01-01    1824
2025-02-01    1785
2025-03-01    1858
Freq: MS, dtype: int32

In [209]:
# Agrupar por mes y promediar los valores
s_dias.resample('MS').mean()  


2025-01-01    58.838710
2025-02-01    63.750000
2025-03-01    59.935484
Freq: MS, dtype: float64

COMBINACION DE DATASETS

In [210]:
# creamos dos dataframes
df_customers = pd.DataFrame({
    'id_cliente': [1, 2, 3, 4, 5],
    'Nombre': ['Ana', 'Carlos', 'Diana', 'Eduardo', 'Fernanda'],
    'Edad': [25, 32, 28, 40, 22],
    'ciudad': ['Madrid', 'Barcelona', 'Málaga', 'Sevilla', 'Murcia']
})
df_products = pd.DataFrame({
    'id_producto': [501, 502, 503, 504, 505, 506],
    'id_cliente': [1, 2, 3, 3, 5,6],
    'Producto': ['Laptop', 'Tablet', 'Smartphone', 'Monitor', 'Teclado', 'Mouse'],
    'Cantidad': [1, 2, 1, 3, 1, 2],
})
df_customers

Unnamed: 0,id_cliente,Nombre,Edad,ciudad
0,1,Ana,25,Madrid
1,2,Carlos,32,Barcelona
2,3,Diana,28,Málaga
3,4,Eduardo,40,Sevilla
4,5,Fernanda,22,Murcia


In [211]:
df_products

Unnamed: 0,id_producto,id_cliente,Producto,Cantidad
0,501,1,Laptop,1
1,502,2,Tablet,2
2,503,3,Smartphone,1
3,504,3,Monitor,3
4,505,5,Teclado,1
5,506,6,Mouse,2


MERGE

In [212]:
# usando merge para unir los dataframes
# inner join
df_inner_join = pd.merge(df_customers, df_products, on='id_cliente')  
df_inner_join  

Unnamed: 0,id_cliente,Nombre,Edad,ciudad,id_producto,Producto,Cantidad
0,1,Ana,25,Madrid,501,Laptop,1
1,2,Carlos,32,Barcelona,502,Tablet,2
2,3,Diana,28,Málaga,503,Smartphone,1
3,3,Diana,28,Málaga,504,Monitor,3
4,5,Fernanda,22,Murcia,505,Teclado,1


In [213]:
df_left_join = pd.merge(df_customers, df_products, on='id_cliente', how='left')  
df_left_join

Unnamed: 0,id_cliente,Nombre,Edad,ciudad,id_producto,Producto,Cantidad
0,1,Ana,25,Madrid,501.0,Laptop,1.0
1,2,Carlos,32,Barcelona,502.0,Tablet,2.0
2,3,Diana,28,Málaga,503.0,Smartphone,1.0
3,3,Diana,28,Málaga,504.0,Monitor,3.0
4,4,Eduardo,40,Sevilla,,,
5,5,Fernanda,22,Murcia,505.0,Teclado,1.0


In [214]:
df_right_join = pd.merge(df_customers, df_products, on='id_cliente', how='right')   
df_right_join

Unnamed: 0,id_cliente,Nombre,Edad,ciudad,id_producto,Producto,Cantidad
0,1,Ana,25.0,Madrid,501,Laptop,1
1,2,Carlos,32.0,Barcelona,502,Tablet,2
2,3,Diana,28.0,Málaga,503,Smartphone,1
3,3,Diana,28.0,Málaga,504,Monitor,3
4,5,Fernanda,22.0,Murcia,505,Teclado,1
5,6,,,,506,Mouse,2


In [216]:
df_outer_join = pd.merge(df_customers, df_products, on='id_cliente', how='outer')  
df_outer_join

Unnamed: 0,id_cliente,Nombre,Edad,ciudad,id_producto,Producto,Cantidad
0,1,Ana,25.0,Madrid,501.0,Laptop,1.0
1,2,Carlos,32.0,Barcelona,502.0,Tablet,2.0
2,3,Diana,28.0,Málaga,503.0,Smartphone,1.0
3,3,Diana,28.0,Málaga,504.0,Monitor,3.0
4,4,Eduardo,40.0,Sevilla,,,
5,5,Fernanda,22.0,Murcia,505.0,Teclado,1.0
6,6,,,,506.0,Mouse,2.0


In [None]:
import pandas as pd
from datetime import datetime 
import numpy as np

df_date_str  = pd.DataFrame({
    'Fecha': ['2020-01-15', '2019-03-22',
              '2021-06-10', '2018-11-05', 
              '2022-02-28'],
    'Hora': ['10:30:05', '12:45:50', 
             '14:15:23', '09:00:32', 
             '16:30:57'],
    'Fecha_hora': ['2020-01-15 10:30:05', 
                   '2019-03-22 12:45:50',
                   '2021-06-10 14:15:23',
                   '2018-11-05 09:00:32', 
                   '2022-02-28 16:30:57']   
})
df_date_str

# convertir fecha strigs a datetime
df_date_str['Fecha_date'] = pd.to_datetime(df_date_str['Fecha'])  # Convertir fecha a datetime
df_date_str['Hora_date'] = pd.to_datetime(df_date_str['Hora'], format='%H:%M:%S')  # Convertir hora a datetime
df_date_str['Fecha_hora_date'] = pd.to_datetime(df_date_str['Fecha_hora'])  # Convertir fecha y hora a datetime
df_date_str.dtypes  # Verificar el tipo de dato de cada columna

df_date_str# Verificar la columna de fechas convertidas a datetime
df_date_str 
df_date = df_date_str.copy()  # Copiar el DataFrame original para no modificarlo
df_date 

# adquirir componentes de la fecha
df_date['Fecha_date'].dt.year  # Extraer el año de la fecha

df_date['Fecha_date'].dt.month  # Extraer el mes de la fecha

df_date['Hora_date'].dt.hour  # Extraer la hora de la fecha

df_date['Fecha_date'].dt.day # Extraer el dia de la fecha

df_date['Fecha_date'].dt.day_name()  # Extraer el nombre del dia de la fecha

# manipular horas   
df_date['Hora_date'].dt.hour  # Extraer la hora de la fecha

df_date['Hora_date'].dt.minute  # Extraer el minuto de la fecha

df_date['Hora_date'].dt.second  # Extraer el segundo de la fecha

# sumar dias a una fecha
df_date['Fecha_date'] + pd.Timedelta(days=5)  # Sumar 5 dias a la fecha

# diferencias entre fechas

date_start =  df_date['Fecha_hora_date'].min()
date_end = df_date['Fecha_hora_date'].max()
date_dif = date_end - date_start
date_dif

# Creacion de un rango de fechas
date_range = pd.date_range(start='2025-01-01',periods= 12, freq='MS')  # Rango de fechas
date_range

# series temporales
np.random.seed(40)  # Semilla para reproducibilidad
fechas_dias = pd.date_range(start='2025-01-01', end='2025-03-31', freq='D')  # Rango de fechas
valores_dias = np.random.randint(10, 100, size=len(fechas_dias))  # Valores aleatorios
s_dias = pd.Series(valores_dias, index=fechas_dias)  # Serie temporal
s_dias.head()  # Mostrar los primeros 5 valores de la serie temporal

# Agrupar por mes y sumar los valores
s_dias.resample('MS').sum()  # resample('MS')  

# Agrupar por mes y promediar los valores
s_dias.resample('MS').mean()

#COMBINACION DE DATASETS

# creamos dos dataframes
df_customers = pd.DataFrame({
    'id_cliente': [1, 2, 3, 4, 5],
    'Nombre': ['Ana', 'Carlos', 'Diana', 'Eduardo', 'Fernanda'],
    'Edad': [25, 32, 28, 40, 22],
    'ciudad': ['Madrid', 'Barcelona', 'Málaga', 'Sevilla', 'Murcia']
})
df_products = pd.DataFrame({
    'id_producto': [501, 502, 503, 504, 505, 506],
    'id_cliente': [1, 2, 3, 3, 5,6],
    'Producto': ['Laptop', 'Tablet', 'Smartphone', 'Monitor', 'Teclado', 'Mouse'],
    'Cantidad': [1, 2, 1, 3, 1, 2],
})
df_customers

df_products

# usando merge para unir los dataframes
# inner join
df_inner_join = pd.merge(df_customers, df_products, on='id_cliente')
df_inner_join

#left join
df_left_join = pd.merge(df_customers, df_products, on='id_cliente', how='left')
df_left_join

#right join
df_right_join = pd.merge(df_customers, df_products, on='id_cliente', how='right')
df_right_join

#outer join
df_outer_join = pd.merge(df_customers, df_products, on='id_cliente', how='outer')
df_outer_join
