In [1]:
# Importar librerías necesarias
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Cargar datos desde un archivo local
url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"
boston = pd.read_csv(url)

# Separar variables y objetivo
X = boston.drop(columns=["medv"])  # medv es la variable objetivo (precio de la vivienda)
y = boston["medv"]

# Normalización y estandarización
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Creación de características polinómicas
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X_scaled)

# Selección de características
model = LinearRegression()
model.fit(X_poly, y)
importance = np.abs(model.coef_)

# Filtrar características menos importantes
threshold = np.percentile(importance, 50)
X_selected = X_poly[:, importance > threshold]


# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.3, random_state=42)

# Entrenar el modelo
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)

print(f"Error Cuadrático Medio: {mse:.4f}")

Error Cuadrático Medio: 12.3306


In [2]:
print(X.shape)
print(X_selected.shape)

(506, 13)
(506, 52)


In [3]:
# Importar librerías necesarias
import numpy as np
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Ventas': [100, 150, 200, 250, 300],
    'Costos': [50, 70, 90, 120, 140],
    'Descuentos': [5, 10, 15, 20, 25]
}

df = pd.DataFrame(data)
# Crear nuevas características usando operadores sobrecargados
df['Margen'] = df['Ventas'] - df['Costos']
df['Ratio_Descuento'] = df['Descuentos'] / df['Ventas']
df['Margen_Ajustado'] = df['Margen'] * (1 - df['Ratio_Descuento'])

print(df)

   Ventas  Costos  Descuentos  Margen  Ratio_Descuento  Margen_Ajustado
0     100      50           5      50         0.050000        47.500000
1     150      70          10      80         0.066667        74.666667
2     200      90          15     110         0.075000       101.750000
3     250     120          20     130         0.080000       119.600000
4     300     140          25     160         0.083333       146.666667


In [4]:
import re

# Crear un DataFrame de ejemplo
data = {'Texto': ['Hola mundo', 'Machine Learning', 'Python es genial', 'Data Science']}
df = pd.DataFrame(data)

# Calcular la longitud de cada cadena
df['Longitud'] = df['Texto'].apply(len)

# Contar la cantidad de palabras en cada cadena
df['Num_Palabras'] = df['Texto'].apply(lambda x: len(x.split()))

# Detectar la presencia de una palabra específica usando expresiones regulares
df['Contiene_Python'] = df['Texto'].apply(lambda x: bool(re.search(r'Python', x)))

print(df)

              Texto  Longitud  Num_Palabras  Contiene_Python
0        Hola mundo        10             2            False
1  Machine Learning        16             2            False
2  Python es genial        16             3             True
3      Data Science        12             2            False


In [5]:
import pandas as pd

# Crear un DataFrame de ejemplo con fechas
data = {'Fechas': pd.to_datetime(['2023-01-01', '2023-06-15', '2024-12-31'])}
df = pd.DataFrame(data)

# Extraer el día, mes y año
df['Día'] = df['Fechas'].dt.day
df['Mes'] = df['Fechas'].dt.month
df['Año'] = df['Fechas'].dt.year

# Calcular si la fecha es un fin de semana
df['Es_Fin_de_Semana'] = df['Fechas'].dt.dayofweek >= 5

print(df)

      Fechas  Día  Mes   Año  Es_Fin_de_Semana
0 2023-01-01    1    1  2023              True
1 2023-06-15   15    6  2023             False
2 2024-12-31   31   12  2024             False


In [6]:
# Crear un DataFrame de ejemplo
data = {'Valores': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# Definir una función personalizada para escalar datos
def escalar_datos(x, min_val, max_val):
    return (x - min_val) / (max_val - min_val)

# Aplicar la función personalizada
df['Valores_Escalados'] = df['Valores'].apply(escalar_datos, args=(df['Valores'].min(), df['Valores'].max()))

print(df)

   Valores  Valores_Escalados
0       10               0.00
1       20               0.25
2       30               0.50
3       40               0.75
4       50               1.00
