In [1]:
import pandas as pd
from tkinter import Tk
from tkinter.filedialog import askopenfilename

# Abre un diálogo para seleccionar el archivo CSV
Tk().withdraw()  # Oculta la ventana principal de Tkinter
archivo_csv = askopenfilename(title="Selecciona el archivo CSV", filetypes=[("CSV files", "*.csv")])

# Carga el CSV en un DataFrame
df = pd.read_csv(archivo_csv)
df.head()  # Muestra las primeras filas

  df = pd.read_csv(archivo_csv)


Unnamed: 0,1,1.1,1.2,1.3,1.4,1.5,1.6,1.7,1.8,1.9,...,1.565,1.566,1.567,1.568,1.569,1.570,1.571,1.572,1.573,574
0,Id,Subsegmento,Sexo,Region,Edad,Renta,Antiguedad,Internauta,Adicional,Dualidad,...,PagoNac_T01,PagoInt_T01,EeccNac_T01,EeccInt_T01,UsoL1_T01,UsoL2_T01,UsoLI_T01,IndRev_T01,target,
1,1,160,M,13,43,,130,1,1,0,...,33000,0,1099866,0,1099866,15080,0,R,0,
2,2,160,H,13,46,143640,69,1,0,0,...,300000,0,214592,0,214592,83596,0,R,0,
3,3,170,H,13,45,929106,24,1,1,0,...,216676,0,0,0,7400,0,0,T,0,
4,4,151,H,13,46,172447,134,0,1,0,...,60000,0,272762,0,272762,10591,0,R,0,


# 1. Entendimiento del Negocio
## Contexto
Describe el problema, los campos del dataset, el alcance, objetivo, criterios de éxito y las hipótesis.

- **Problema:** ¿Cuál es el objetivo del análisis/modelo?
- **Campos del dataset:** ¿Qué variables contiene el archivo CSV?
- **Alcance:** ¿Qué se busca lograr?
- **Objetivo:** ¿Qué variable se quiere predecir?
- **Criterios de éxito:** ¿Cómo se medirá el éxito del modelo?
- **Hipótesis:** ¿La variable a predecir es continua (regresión) o categórica (clasificación)?

# 2. Comprensión de los Datos
## Análisis estadístico y visualización
Analiza los tipos de datos, realiza interpretaciones y observa hallazgos relevantes.

- **Numéricos:** Medidas de tendencia central, histograma.
- **Categóricos:** Moda, distribución (gráficos de torta y barras).

In [None]:
# Análisis estadístico básico
print(df.info())
print(df.describe(include='all'))

# Histograma para variables numéricas
import matplotlib.pyplot as plt
df.hist(figsize=(10,8))
plt.show()

# Gráficos para variables categóricas
categorical_cols = df.select_dtypes(include=['object', 'category']).columns
for col in categorical_cols:
    df[col].value_counts().plot(kind='bar', title=col)
    plt.show()

# 3. Preparación de los Datos
## Tratamiento de NaN, nulos y outliers
Explica cómo se tratan los valores faltantes y los outliers, y justifica las decisiones.

- **Numéricos:** Mediana, KNN imputer.
- **Categóricos:** Moda.
- **Outliers:** Boxplot, mediana.

In [None]:
# Tratamiento de valores nulos
from sklearn.impute import SimpleImputer

# Numéricos: mediana
num_cols = df.select_dtypes(include=['float64', 'int64']).columns
imputer_num = SimpleImputer(strategy='median')
df[num_cols] = imputer_num.fit_transform(df[num_cols])

# Categóricos: moda
cat_cols = df.select_dtypes(include=['object', 'category']).columns
imputer_cat = SimpleImputer(strategy='most_frequent')
df[cat_cols] = imputer_cat.fit_transform(df[cat_cols])

# Outliers: boxplot
df[num_cols].boxplot(figsize=(10,8))
plt.show()

# 4. Transformación de Datos
## Codificación y escalamiento
Transforma variables categóricas a numéricas y escala los datos.

- **Label Encoding, One Hot Encoding, Binary Encoding**
- **Escalamiento:** MinMaxScaler o StandardScaler

In [None]:
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

# Label Encoding para variables categóricas
le = LabelEncoder()
for col in cat_cols:
    df[col] = le.fit_transform(df[col])

# Escalamiento MinMax
scaler = MinMaxScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])

# 5. Análisis de Correlación y Duplicados
## Matriz de correlación y tratamiento de duplicados
Interpreta la matriz de correlación y elimina duplicados si es necesario.

In [None]:
# Matriz de correlación
import seaborn as sns
corr = df.corr()
plt.figure(figsize=(12,10))
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()

# Eliminación de duplicados
df = df.drop_duplicates()

# 6. Técnicas de Regularización
## Ridge y Lasso
Explica y aplica técnicas de regularización para modelos de regresión.

In [None]:
from sklearn.linear_model import Ridge, Lasso

# Ejemplo de uso (ajusta X, y según tu variable objetivo)
# ridge = Ridge(alpha=1.0).fit(X_train, y_train)
# lasso = Lasso(alpha=0.1).fit(X_train, y_train)

# 7. Métricas de Evaluación
## ECM/MSE y R^2
Evalúa el desempeño del modelo usando ECM/MSE y R^2.

- **ECM/MSE menor = mejor**
- **R^2 cercano a 1 = mejor**

In [None]:
from sklearn.metrics import mean_squared_error, r2_score

# Ejemplo de evaluación (ajusta y_test, y_pred según tu modelo)
# mse = mean_squared_error(y_test, y_pred)
# r2 = r2_score(y_test, y_pred)
# print('MSE:', mse)
# print('R^2:', r2)