# Manejo de datos con pandas - Parte 2



### Unión y Combinación de DataFrames (merge(), concat())

1. Combinar DataFrames utilizando la función `merge()`.
2. Unir DataFrames usando la función `concat()`.

Comencemos con la combinación de DataFrames utilizando `merge()`.


### 1. Combinación de DataFrames con merge()

Crea los siguientes DataFrames y combínalos utilizando la columna `Producto` como clave común:

**DataFrame 1 (df_ventas):**
| Producto | Ventas |
|----------|--------|
| A        | 100    |
| B        | 150    |
| C        | 200    |

**DataFrame 2 (df_precios):**
| Producto | Precio |
|----------|--------|
| A        | 20     |
| B        | 30     |
| D        | 50     |

In [None]:
import pandas as pd
import numpy as np

# Crear los DataFrames
df_ventas = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [100, 150, 200]
})

df_precios = pd.DataFrame({
    'Producto': ['A', 'B', 'D'],
    'Precio': [20, 30, 50]
})

display(df_ventas)
display(df_precios)

### 2. Tipos de combinaciones en merge()

Utiliza `merge()` para realizar una combinación de tipo:
- `inner` (intersección de ambos DataFrames).
- `outer` (unión de ambos DataFrames, incluyendo valores faltantes).
- `left` (mantiene todos los valores del DataFrame izquierdo).
- `right` (mantiene todos los valores del DataFrame derecho).

In [None]:
# Combinar los DataFrames utilizando merge()
df_combinado = pd.merge(df_ventas, df_precios, on='Producto', how='inner')
print("DataFrame combinado (inner join):")
display(df_combinado)

In [None]:
# Combinar usando 'outer' join
df_outer = pd.merge(df_ventas, df_precios, on='Producto', how='outer')
print("DataFrame combinado (outer join):")
display(df_outer)

In [None]:
# Combinar usando 'left' join
df_left = pd.merge(df_ventas, df_precios, on='Producto', how='left')
print("DataFrame combinado (left join):")
display(df_left)


In [None]:
# Combinar usando 'right' join
df_right = pd.merge(df_ventas, df_precios, on='Producto', how='right')
print("DataFrame combinado (right join):")
display(df_right)


### 3. Unir DataFrames con concat()

Crea los siguientes DataFrames y únelos verticalmente:

**DataFrame 1 (df_ventas_1):**
| Producto | Ventas |
|----------|--------|
| A        | 100    |
| B        | 150    |

**DataFrame 2 (df_ventas_2):**
| Producto | Ventas |
|----------|--------|
| C        | 200    |
| D        | 250    |


In [None]:
# Crear los DataFrames
df_ventas_1 = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Ventas': [100, 150]
})

df_ventas_2 = pd.DataFrame({
    'Producto': ['C', 'D'],
    'Ventas': [200, 250]
})

In [None]:
# Unir los DataFrames verticalmente usando concat()
df_union = pd.concat([df_ventas_1, df_ventas_2], axis=0)
print("DataFrame unido verticalmente:")
display(df_union)

In [None]:
df_union.reset_index(drop=True)

### 4. Unir DataFrames horizontalmente usando concat()

Crea los siguientes DataFrames y únelos horizontalmente:

**DataFrame 1 (df_productos):**
| Producto | Categoría  |
|----------|------------|
| A        | Electrónica|
| B        | Ropa       |

**DataFrame 2 (df_precios):**
| Producto | Precio     |
|----------|------------|
| A        | 20         |
| B        | 30         |

In [None]:
# Crear los DataFrames
df_productos = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Categoría': ['Electrónica', 'Ropa']
})

df_precios = pd.DataFrame({
    'Producto': ['A', 'B'],
    'Precio': [20, 30]
})

In [None]:
# Unir los DataFrames horizontalmente usando concat()
df_union_horizontal = pd.concat([df_productos, df_precios['Precio']], axis=1)
print("DataFrame unido horizontalmente:")
display(df_union_horizontal)

### 5. Agrupación y Agregación de Datos con groupby()


1. Agrupar datos en un DataFrame utilizando la función `groupby()`.
2. Aplicar funciones de agregación (como `mean()`, `sum()`, etc.) para resumir los datos agrupados.

Comencemos creando un DataFrame con el que trabajaremos.

In [None]:
import pandas as pd

# Crear un DataFrame de ventas
datos_ventas = {
    'Producto': ['A', 'B', 'A', 'C', 'B', 'A'],
    'Cantidad': [10, 5, 15, 20, 5, 30],
    'Precio': [100, 200, 100, 300, 200, 100]
}

df_ventas = pd.DataFrame(datos_ventas)
print("DataFrame de ventas:")
display(df_ventas)

Agrupa el DataFrame por la columna `Producto` para obtener la cantidad total de cada producto.

In [None]:
df_ventas.groupby("Producto").mean()

In [None]:
df_ventas.groupby("Producto")[["Cantidad", "Precio"]].sum()

In [None]:
df_ventas[df_ventas["Cantidad"]>10].groupby("Producto")[["Precio"]].mean()

In [None]:
# Agrupar por 'Producto' y sumar las cantidades
agrupado_cantidad = df_ventas[df_ventas["Cantidad"]> 10].groupby('Producto')[['Cantidad']].sum()
print("Cantidad total por producto:")
display(agrupado_cantidad)

Utiliza `groupby()` para agrupar los datos por `Producto` y aplicar múltiples funciones de agregación:
- Obtener la **cantidad total** vendida por cada producto.
- Obtener el **precio promedio** de cada producto.

In [None]:
{
    'Cantidad': 'sum',
    'Precio': 'mean'
}

In [None]:
# Agrupar por 'Producto' y aplicar las funciones de agregación
agrupado_total_promedio = df_ventas.groupby('Producto').agg({
    'Cantidad': 'sum',
    'Precio': 'mean'
})
print("Cantidad total y precio promedio por producto:")
display(agrupado_total_promedio)

### 6.  Aplicar múltiples funciones a una sola columna

Utiliza `groupby()` para agrupar por `Producto` y aplica las funciones `sum`, `mean` y `min` a la columna `Cantidad`.

In [None]:
df_ventas["Familia"] = ["Electro", "Muebles","Electro", "Muebles","Electro", "Muebles"]
df_ventas

In [None]:
# Agrupar por 'Producto' y aplicar múltiples funciones a la columna 'Cantidad'
agrupado_cantidad_multiple = df_ventas.groupby(['Producto', 'Familia'])['Cantidad'].agg(['sum', 'mean', 'min'])
print("Cantidad total, promedio y mínima por producto:")
display(agrupado_cantidad_multiple)

### 7. Utilizando pivot_table

In [None]:
# Diccionario y DataFrame de facturas
facturas_data = {
    "Factura ID": [201, 202, 203, 204, 205, 206],
    "Cliente ID": [101, 102, 103, 104, 105, 106],
    "Producto": ["Laptop", "Tablet", "Celular", "Monitor", "Teclado", "Mouse"],
    "Precio": [3500, 1500, 1200, 900, 200, 100],
    "Cantidad": [1, 2, 1, 3, 5, 10],
    "Fecha": pd.date_range("2023-01-01", periods=6, freq="M")
}
df_facturas = pd.DataFrame(facturas_data)

In [None]:
df_facturas.pivot_table(index='Cliente ID',
                        values='Precio',
                        columns='Producto',
                        aggfunc=[np.mean,np.sum,np.median]).fillna(0)

# Caso de uso: aplicaciones de la condicional (IF) y bucles (FOR) sobre dataframes en el preprocesamiento de data y feature engineering para modelos de ML

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression

import warnings
warnings.filterwarnings("ignore")

In [None]:
data = {
    "Edad": [
        75,32,40,29,22,35,28,45,31,27,
        38,26,33,41,30,24,36,29,34,23,
        37,42,28,31,39,26,44,32,27,35,
        30,33,41,24,29,38,36,31,25,40,
        28,34,29,37,26,33,41,30,27,75
    ],

    "Genero": [
        "M","F","M","F","M","F","M","F","M","F",
        "M","F","M","F","M","F","M","F","M","F",
        "M","F","M","F","M","F","M","F","M","F",
        "M","F","M","F","M","F","M","F","M","F",
        "M","F","M","F","M","F","M","F","M","F"
    ],

    "Ciudad": [
        "Lima","Quito","Bogotá","Lima","Quito","Bogotá","Lima","Quito","Bogotá","Lima",
        "Quito","Bogotá","Lima","Quito","Bogotá","Lima","Quito","Bogotá","Lima","Quito",
        "Bogotá","Lima","Quito","Bogotá","Lima","Quito","Bogotá","Lima","Quito","Bogotá",
        "Lima","Quito","Bogotá","Lima","Quito","Bogotá","Lima","Quito","Bogotá","Lima",
        "Quito","Bogotá","Lima","Quito","Bogotá","Lima","Quito","Bogotá","Lima","Quito"
    ],

    "Ingreso": [
        8500,3200,4100,2800,2300,3600,2900,4500,3000,2600,
        3900,2700,3400,4200,3100,2400,3700,2950,3300,2550,
        4000,3650,2850,3100,4300,2600,7700,3250,2750,3550,
        3100,3450,4150,2450,2900,3850,3650,3050,2550,4050,
        2900,3350,3000,3950,2650,3400,4250,3150,2800,3600
    ],

    "PropensionCompra": [
        1,0,0,0,1,1,0,1,0,0,
        1,0,1,1,0,0,1,0,1,1,
        0,1,0,1,1,0,1,0,1,0,
        1,0,1,0,1,1,0,1,0,1,
        0,1,0,1,1,0,0,0,1,1
    ]
}

df = pd.DataFrame(data)


df

In [None]:
columnas = df.columns.tolist()
print("Columnas:", columnas)

In [None]:
tipos_columnas = []
for col in columnas:
    tipos_columnas.append(type(df[col][0]))
tipos_columnas

In [None]:
columnas_tipos = list(zip(columnas, tipos_columnas))
print(columnas_tipos)

In [None]:
cat_cols = []
num_cols = []
for col in columnas:
    if df[col].dtype == "object":
        cat_cols.append(col)
    else:
        num_cols.append(col)

print("Categoricas:", cat_cols)
print("Numéricas:", num_cols)

In [None]:
#Método get_dummies para hacer One Hot Encoding (OHE) a las variables categóricas

df_encoded = pd.get_dummies(df, columns=cat_cols)
df_encoded

In [None]:
 df_encoded.columns

In [None]:
# Colección de features seleccionadas
features = list(df_encoded.columns)

# Target
target = 'PropensionCompra'

In [None]:
# Selección de X y y
X = df_encoded[features]
y = df[target]

print("Variables independientes (X):")
print(X.head())

print("Variable dependiente (y):")
print(y.head())


In [None]:
# Split train-test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Modelo Random Forest
clf = LogisticRegression(random_state=42)
clf.fit(X_train, y_train)

# Predicciones
y_pred = clf.predict(X_test)

# Reporte de desempeño
print(classification_report(y_test, y_pred))