# Informe 1

**InmoValor S.A.** es una empresa innovadora en el sector inmobiliario que utiliza técnicas avanzadas de análisis y modelos de regresión para estimar el valor de los inmuebles. La compañía recopila y analiza un amplio conjunto de datos con información detallada sobre viviendas, con el objetivo de desarrollar modelos predictivos que permitan proyectar con precisión el precio de los inmuebles.

Cada semana, se generan y entregan resultados basados en la aplicación de algoritmos de predicción y/o clasificación. El objetivo final es determinar el mejor algoritmo predictivo para estimar con mayor exactitud el valor de una vivienda.

## Descarga y Carga de Datos
Utilizando los datos de [Kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data) se puede utilizar el dataset `train.csv` para mostrar una vista previa del dataset como número de filas, columnas, tipos de datos y valores nulos.

### Importar Librerias

Se utilizará las librerias:


In [86]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Exploración de Datos

A simple vista se pueden observar varios valores nulos que se pueden manejar en un paso posterior. 

In [87]:
file_path = "../data/train.csv"
data = pd.read_csv(file_path)
print(data.head())

   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold  \
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         Lvl    AllPub  ...        0    NaN   NaN         NaN       0     12   

  YrSold  SaleType  SaleCondition  SalePrice  
0   2008        WD   

In [88]:
print(f"El dataset contiene {data.shape[0]} filas y {data.shape[1]} columnas.")

El dataset contiene 1460 filas y 81 columnas.


In [89]:
# Guarda el número, nombre y tipo de dato de la columna de un csv
def saveColumnInfo(data, fileSave):
  with open(fileSave, "w") as f:
    for i, (col, dtype) in enumerate(data.dtypes.items(), start=1):
      f.write(f"{i}, {col}, {dtype}\n")

  print("Archivo 'namecolumns.txt' generado correctamente.")
  
saveColumnInfo(data=data, fileSave="columns_info.txt")

Archivo 'namecolumns.txt' generado correctamente.


### Tipos de Datos

Existen 1460 filas y 81 columnas en el dataset y los tipos de datos se describen a continuación.

| Número | Nombre de la Columna | Significado | Tipo de Dato |
|--------|----------------------|-------------|-------------|
| 1 | MSSubClass | Clase del edificio | int64 |
| 2 | MSZoning | Clasificación de zonificación | object |
| 3 | LotFrontage | Pies lineales de calle conectados a la propiedad | float64 |
| 4 | LotArea | Tamaño del terreno en pies cuadrados | int64 |
| 5 | Street | Tipo de acceso a la calle | object |
| 6 | Alley | Tipo de acceso al callejón | object |
| 7 | LotShape | Forma general de la propiedad | object |
| 8 | LandContour | Nivelación del terreno | object |
| 9 | Utilities | Tipo de servicios disponibles | object |
| 10 | LotConfig | Configuración del terreno | object |
| 11 | LandSlope | Pendiente del terreno | object |
| 12 | Neighborhood | Ubicación dentro de los límites de Ames | object |
| 13 | Condition1 | Proximidad a carreteras o ferrocarriles | object |
| 14 | Condition2 | Proximidad a una segunda carretera o ferrocarril | object |
| 15 | BldgType | Tipo de vivienda | object |
| 16 | HouseStyle | Estilo de la vivienda | object |
| 17 | OverallQual | Calidad general de materiales y acabados | int64 |
| 18 | OverallCond | Calificación de la condición general | int64 |
| 19 | YearBuilt | Año de construcción original | int64 |
| 20 | YearRemodAdd | Año de remodelación | int64 |
| 21 | RoofStyle | Tipo de techo | object |
| 22 | RoofMatl | Material del techo | object |
| 23 | Exterior1st | Revestimiento exterior de la casa | object |
| 24 | Exterior2nd | Segundo revestimiento exterior (si aplica) | object |
| 25 | MasVnrType | Tipo de revestimiento de mampostería | object |
| 26 | MasVnrArea | Área de revestimiento de mampostería en pies cuadrados | float64 |
| 27 | ExterQual | Calidad del material exterior | object |
| 28 | ExterCond | Estado actual del material exterior | object |
| 29 | Foundation | Tipo de cimentación | object |
| 30 | BsmtQual | Altura del sótano | object |
| 31 | BsmtCond | Condición general del sótano | object |
| 32 | BsmtExposure | Exposición del sótano (nivel jardín o salida) | object |
| 33 | BsmtFinType1 | Calidad del área terminada del sótano | object |
| 34 | BsmtFinSF1 | Pies cuadrados de área terminada tipo 1 en el sótano | int64 |
| 35 | BsmtFinType2 | Calidad de la segunda área terminada del sótano | object |
| 36 | BsmtFinSF2 | Pies cuadrados de área terminada tipo 2 en el sótano | int64 |
| 37 | BsmtUnfSF | Pies cuadrados sin terminar del sótano | int64 |
| 38 | TotalBsmtSF | Pies cuadrados totales del sótano | int64 |
| 39 | Heating | Tipo de calefacción | object |
| 40 | HeatingQC | Calidad y condición de la calefacción | object |
| 41 | CentralAir | Aire acondicionado central | object |
| 42 | Electrical | Sistema eléctrico | object |
| 43 | 1stFlrSF | Pies cuadrados del primer piso | int64 |
| 44 | 2ndFlrSF | Pies cuadrados del segundo piso | int64 |
| 45 | LowQualFinSF | Pies cuadrados de acabado de baja calidad | int64 |
| 46 | GrLivArea | Pies cuadrados de área habitable sobre el suelo | int64 |
| 47 | BsmtFullBath | Número de baños completos en el sótano | int64 |
| 48 | BsmtHalfBath | Número de medios baños en el sótano | int64 |
| 49 | FullBath | Número de baños completos sobre el nivel del suelo | int64 |
| 50 | HalfBath | Número de medios baños sobre el nivel del suelo | int64 |
| 51 | BedroomAbvGr | Número de habitaciones sobre el sótano | int64 |
| 52 | KitchenAbvGr | Número de cocinas | int64 |
| 53 | KitchenQual | Calidad de la cocina | object |
| 54 | TotRmsAbvGrd | Total de habitaciones sobre el nivel del suelo (sin incluir baños) | int64 |
| 55 | Functional | Clasificación de funcionalidad de la casa | object |
| 56 | Fireplaces | Número de chimeneas | int64 |
| 57 | FireplaceQu | Calidad de la chimenea | object |
| 58 | GarageType | Ubicación del garaje | object |
| 59 | GarageYrBlt | Año de construcción del garaje | float64 |
| 60 | GarageFinish | Acabado interior del garaje | object |
| 61 | GarageCars | Tamaño del garaje en capacidad de autos | int64 |
| 62 | GarageArea | Tamaño del garaje en pies cuadrados | int64 |
| 63 | GarageQual | Calidad del garaje | object |
| 64 | GarageCond | Condición del garaje | object |
| 65 | PavedDrive | Entrada pavimentada | object |
| 66 | WoodDeckSF | Área de terraza de madera en pies cuadrados | int64 |
| 67 | OpenPorchSF | Área del porche abierto en pies cuadrados | int64 |
| 68 | EnclosedPorch | Área del porche cerrado en pies cuadrados | int64 |
| 69 | 3SsnPorch | Área del porche de tres estaciones en pies cuadrados | int64 |
| 70 | ScreenPorch | Área del porche con mosquitero en pies cuadrados | int64 |
| 71 | PoolArea | Área de la piscina en pies cuadrados | int64 |
| 72 | PoolQC | Calidad de la piscina | object |
| 73 | Fence | Calidad de la cerca | object |
| 74 | MiscFeature | Característica miscelánea no cubierta en otras categorías | object |
| 75 | MiscVal | Valor en dólares de la característica miscelánea | int64 |
| 76 | MoSold | Mes de venta | int64 |
| 77 | YrSold | Año de venta | int64 |
| 78 | SaleType | Tipo de venta | object |
| 79 | SaleCondition | Condición de venta | object |
| 80 | SalePrice | Precio de venta de la propiedad en dólares | int64 |


> **Nota:** Se omite la columna ID que identifica cada registro y no es relevante en la información del dataset.


### Tipos de Variables

#### Variables Categóricas

1. **Variables Categóricas Nominales:** Estas variables representan categorías sin un orden específico, como el tipo de acceso a la calle (por ejemplo, `Street`) o la ubicación del garaje (`GarageType`). Los valores de estas columnas son etiquetas que describen una categoría sin un orden inherente.

    | Número | Nombre de la Columna |
    |--------|----------------------|
    | 1 | MSZoning |
    | 2 | Street |
    | 3 | Alley |
    | 4 | LotShape |
    | 5 | LandContour |
    | 6 | Utilities |
    | 7 | LotConfig |
    | 8 | LandSlope |
    | 9 | Neighborhood |
    | 10 | Condition1 |
    | 11 | Condition2 |
    | 12 | BldgType |
    | 13 | HouseStyle |
    | 14 | RoofStyle |
    | 15 | RoofMatl |
    | 16 | Exterior1st |
    | 17 | Exterior2nd |
    | 18 | MasVnrType |
    | 19 | Foundation |
    | 20 | BsmtQual |
    | 21 | BsmtCond |
    | 22 | BsmtExposure |
    | 23 | BsmtFinType1 |
    | 24 | BsmtFinType2 |
    | 25 | Heating |
    | 26 | CentralAir |
    | 27 | Electrical |
    | 28 | GarageType |
    | 29 | GarageFinish |
    | 30 | PavedDrive |
    | 31 | MiscFeature |
    | 32 | SaleType |
    | 33 | SaleCondition |

2. **Variables Categóricas Ordinales:** Son variables que tienen un orden o clasificación implícita, como la calidad del material exterior (`ExterQual`) o la calificación general de la casa (`OverallQual`). Los valores de estas variables siguen un rango que tiene un significado relativo (por ejemplo, "Excelente" es mejor que "Promedio").

    | Número | Nombre de la Columna |
    |--------|----------------------|
    | 1 | MSSubClass |
    | 2 | OverallQual |
    | 3 | OverallCond |
    | 4 | ExterQual |
    | 5 | ExterCond |
    | 6 | HeatingQC |
    | 7 | KitchenQual |
    | 8 | Functional |
    | 9 | FireplaceQu |
    | 10 | GarageQual |
    | 11 | GarageCond |
    | 12 | PoolQC |
    | 13 | Fence |

#### Variables Numéricas

1. **Variables Discretas:** Son variables numéricas que solo pueden tomar ciertos valores enteros específicos, como el número de chimeneas (`Fireplaces`) o el tamaño del garaje en capacidad de autos (`GarageCars`). Estos valores son contables y no continúan en un rango infinito.

    | Número | Nombre de la Columna |
    |--------|----------------------|
    | 1 | LotArea |
    | 2 | YearBuilt |
    | 3 | YearRemodAdd |
    | 4 | BsmtFinSF1 |
    | 5 | BsmtFinSF2 |
    | 6 | BsmtUnfSF |
    | 7 | TotalBsmtSF |
    | 8 | 1stFlrSF |
    | 9 | 2ndFlrSF |
    | 10 | LowQualFinSF |
    | 11 | GrLivArea |
    | 12 | BsmtFullBath |
    | 13 | BsmtHalfBath |
    | 14 | FullBath |
    | 15 | HalfBath |
    | 16 | BedroomAbvGr |
    | 17 | KitchenAbvGr |
    | 18 | TotRmsAbvGrd |
    | 19 | Fireplaces |
    | 20 | GarageYrBlt |
    | 21 | GarageCars |
    | 22 | GarageArea |
    | 23 | WoodDeckSF |
    | 24 | OpenPorchSF |
    | 25 | EnclosedPorch |
    | 26 | 3SsnPorch |
    | 27 | ScreenPorch |
    | 28 | PoolArea |
    | 29 | MiscVal |
    | 30 | MoSold |
    | 31 | YrSold |

2. **Variables Continuas:** Son variables numéricas que pueden tomar cualquier valor dentro de un rango, como el tamaño del terreno en pies cuadrados (`LotArea`) o el área de la piscina en pies cuadrados (`PoolArea`). Los valores pueden ser fraccionarios y están en un rango continuo.

    | Número | Nombre de la Columna |
    |--------|----------------------|
    | 1 | LotFrontage |
    | 2 | MasVnrArea |
    | 3 | SalePrice |


In [90]:
# Diccionario que mapea las columnas a su tipo de variable
column_types = {
  "MSZoning": "Nominal",
  "Street": "Nominal",
  "Alley": "Nominal",
  "LotShape": "Nominal",
  "LandContour": "Nominal",
  "Utilities": "Nominal",
  "LotConfig": "Nominal",
  "LandSlope": "Nominal",
  "Neighborhood": "Nominal",
  "Condition1": "Nominal",
  "Condition2": "Nominal",
  "BldgType": "Nominal",
  "HouseStyle": "Nominal",
  "RoofStyle": "Nominal",
  "RoofMatl": "Nominal",
  "Exterior1st": "Nominal",
  "Exterior2nd": "Nominal",
  "MasVnrType": "Nominal",
  "Foundation": "Nominal",
  "BsmtQual": "Nominal",
  "BsmtCond": "Nominal",
  "BsmtExposure": "Nominal",
  "BsmtFinType1": "Nominal",
  "BsmtFinType2": "Nominal",
  "Heating": "Nominal",
  "CentralAir": "Nominal",
  "Electrical": "Nominal",
  "GarageType": "Nominal",
  "GarageFinish": "Nominal",
  "PavedDrive": "Nominal",
  "MiscFeature": "Nominal",
  "SaleType": "Nominal",
  "SaleCondition": "Nominal",
  "MSSubClass": "Ordinal",
  "OverallQual": "Ordinal",
  "OverallCond": "Ordinal",
  "ExterQual": "Ordinal",
  "ExterCond": "Ordinal",
  "HeatingQC": "Ordinal",
  "KitchenQual": "Ordinal",
  "Functional": "Ordinal",
  "FireplaceQu": "Ordinal",
  "GarageQual": "Ordinal",
  "GarageCond": "Ordinal",
  "PoolQC": "Ordinal",
  "Fence": "Ordinal",
  "LotArea": "Discreta",
  "YearBuilt": "Discreta",
  "YearRemodAdd": "Discreta",
  "BsmtFinSF1": "Discreta",
  "BsmtFinSF2": "Discreta",
  "BsmtUnfSF": "Discreta",
  "TotalBsmtSF": "Discreta",
  "1stFlrSF": "Discreta",
  "2ndFlrSF": "Discreta",
  "LowQualFinSF": "Discreta",
  "GrLivArea": "Discreta",
  "BsmtFullBath": "Discreta",
  "BsmtHalfBath": "Discreta",
  "FullBath": "Discreta",
  "HalfBath": "Discreta",
  "BedroomAbvGr": "Discreta",
  "KitchenAbvGr": "Discreta",
  "TotRmsAbvGrd": "Discreta",
  "Fireplaces": "Discreta",
  "GarageYrBlt": "Discreta",
  "GarageCars": "Discreta",
  "GarageArea": "Discreta",
  "WoodDeckSF": "Discreta",
  "OpenPorchSF": "Discreta",
  "EnclosedPorch": "Discreta",
  "3SsnPorch": "Discreta",
  "ScreenPorch": "Discreta",
  "PoolArea": "Discreta",
  "MiscVal": "Discreta",
  "MoSold": "Discreta",
  "YrSold": "Discreta",
  "LotFrontage": "Continua",
  "MasVnrArea": "Continua",
  "SalePrice": "Continua"
}

### Estrategia Para Manejo de Datos Nulos

Por el código utilizado nos damos cuenta que tenemos 1460 registros con valores nulos y en todo el dataset tenemos 7829 celdas.


In [91]:
# Guarda el número, nombre, cantidad de valores nulos de la columna y el tipo de variable de un csv si tienen valores nulos
# Retorna True/False si encontró nulos
def saveNullInfo(data, fileSave):
  total_null_rows = data.isnull().any(axis=1).sum()
  total_null_values = data.isnull().sum().sum()
  
  with open(fileSave, "w") as f:
    for i, (col, null_count) in enumerate(data.isnull().sum().items(), start=1):
      if null_count > 0:
        # Obtener el tipo de la columna desde el diccionario column_types
        column_type = column_types.get(col, "Desconocido")
        f.write(f"{i}, {col}, {null_count}, {column_type}\n")
    
    f.write(f"\nTotal registros con valores nulos: {total_null_rows}\n")  # Filas con nulos
    f.write(f"Total valores nulos en el DataFrame: {total_null_values}\n")  # Total de valores nulos
  
  print(f"Archivo '{fileSave}' generado correctamente.")
  return total_null_values > 0

# Ejemplo de uso:
result_nulls = saveNullInfo(data=data, fileSave="null_columns_info.txt")
print("Existen Valores Nulos" if result_nulls else "No Existen Valores Nulos")

Archivo 'null_columns_info.txt' generado correctamente.
Existen Valores Nulos


#### Nulos - Numéricas

Las columnas **LotFrontage** (con 259 valores nulos), **MasVnrArea** (con 8 valores nulos) y **GarageYrBlt** (con 81 valores nulos) son variables numéricas. En este caso, se utilizará la estrategia de imputación de valores nulos con **la media** para las columnas **LotFrontage** y **GarageYrBlt**, debido a que ambas variables presentan una distribución simétrica, como lo indica que la media y la mediana estén cerca. Para la columna **MasVnrArea**, se optará por la **mediana** debido a su distribución sesgada, ya que la mediana se ajusta mejor a los valores nulos y reduce el impacto de los valores extremos (cerca de 0). Esta estrategia de imputación es una opción segura para preservar la integridad de los datos, manteniendo la coherencia y la distribución de los valores en las columnas.

- [Enlace de Referencia](https://medium.com/@suyebaanjum98/mastering-null-value-handling-a-comprehensive-guide-to-replacing-missing-data-in-your-dataset-1a0bf711e531)

In [92]:
print(data[['LotFrontage', 'MasVnrArea', 'GarageYrBlt']].describe())

       LotFrontage   MasVnrArea  GarageYrBlt
count  1201.000000  1452.000000  1379.000000
mean     70.049958   103.685262  1978.506164
std      24.284752   181.066207    24.689725
min      21.000000     0.000000  1900.000000
25%      59.000000     0.000000  1961.000000
50%      69.000000     0.000000  1980.000000
75%      80.000000   166.000000  2002.000000
max     313.000000  1600.000000  2010.000000


In [93]:
if result_nulls:
  data['LotFrontage'] = data['LotFrontage'].fillna(data['LotFrontage'].mean())
  data['MasVnrArea'] = data['MasVnrArea'].fillna(data['MasVnrArea'].median())
  data['GarageYrBlt'] = data['GarageYrBlt'].fillna(data['GarageYrBlt'].mean())
  result = saveNullInfo(data=data, fileSave="null_columns_info_without_numerics.txt")

Archivo 'null_columns_info_without_numerics.txt' generado correctamente.


#### Nulos - Categóricas

En este caso, se utilizará el **método de imputación por la categoría más frecuente** (imputaciónMasFrecuente) para rellenar los valores nulos en las columnas categóricas del dataset. Este método será aplicable en las siguientes columnas del dataset:

- **Alley** (1369 nulos)
- **MasVnrType** (872 nulos)
- **BsmtQual** (37 nulos)
- **BsmtCond** (37 nulos)
- **BsmtExposure** (38 nulos)
- **BsmtFinType1** (37 nulos)
- **BsmtFinType2** (38 nulos)
- **Electrical** (1 nulo)
- **FireplaceQu** (690 nulos)
- **GarageType** (81 nulos)
- **GarageYrBlt** (81 nulos)
- **GarageFinish** (81 nulos)
- **GarageQual** (81 nulos)
- **GarageCond** (81 nulos)
- **PoolQC** (1453 nulos)
- **Fence** (1179 nulos)
- **MiscFeature** (1406 nulos)

**Total registros con valores nulos:** 1460  
**Total valores nulos en el DataFrame:** 7562

##### Justificación del Método

El **método de imputación por la categoría más frecuente** se selecciona porque muchas de las columnas categóricas presentan una categoría dominante que puede llenar los valores nulos de manera coherente con la distribución de los datos. Por ejemplo, en la columna **"BsmtQual"**, la mayoría de los registros pueden tener el valor "No Basement", lo cual es consistente con los datos existentes.

Se ofrecen otras estrategias para el manejo de valores nulos en columnas categóricas, tales como:

1. **Imputación por moda**: Similar a la imputación por la categoría más frecuente, pero en este caso, puede no ser tan flexible si la moda no refleja adecuadamente la distribución.
2. **Imputación por valor fijo ("Missing")**: Podría usarse cuando no se quiere suponer que algún valor existente sea el adecuado para los nulos, pero introducir una categoría como "Missing" puede complicar el análisis posterior.
3. **Imputación aleatoria**: Para preservar la variabilidad de los datos, especialmente útil cuando las categorías están más equilibradas, pero este método no es tan adecuado en este caso, dado que las categorías dominantes son claras y no hay un patrón de falta de datos aleatorio.

En este caso, **la imputación por la categoría más frecuente** es el método más apropiado porque las columnas presentan una clara mayoría en algunas categorías. Sin embargo, si se prefieren otras estrategias, se puede cambiar fácilmente la variable utilizada para identificar el método a utilizar `flag_nulls` y cambiar de estrategia segun sea necesario.

##### Imputación por Moda

Este método es especialmente adecuado para columnas **categóricas** donde una categoría es mucho más frecuente que las otras, como **"Alley"**, **"MasVnrType"**, o **"BsmtQual"**. En estas columnas, la imputación con la categoría más frecuente no debería alterar mucho la distribución de los datos. Por ejemplo, si en **"BsmtQual"** la mayoría de los valores son "No Basement", usar el valor más frecuente como imputación mantiene la coherencia con los datos existentes sin introducir sesgos graves.

- **Ventajas:** 
  - Es eficiente para columnas con valores nulos relativamente pocos y donde la mayoría de los registros siguen un patrón claro, como en **"BsmtQual"** (en donde es muy probable que el valor más frecuente sea "No Basement").
  
- **Desventajas:** 
  - Si se usa en columnas donde las categorías están más equilibradas o no hay una categoría dominante, este método puede generar sesgos. 

- [Enlace de Referencia](https://medium.com/@suyebaanjum98/mastering-null-value-handling-a-comprehensive-guide-to-replacing-missing-data-in-your-dataset-1a0bf711e531)

In [94]:
def imputacionModa(data, columna):
  data[columna].fillna(data[columna].mode()[0], inplace=True)
  return data

##### Imputación por Valor Fijo ("Missing")

Este método es útil para columnas donde el valor faltante no tiene un patrón claro o no se desea suponer que uno de los valores existentes es representativo de los nulos. Esto puede ser útil en columnas como **"PoolQC"**, **"Fence"** o **"MiscFeature"**, donde la mayoría de los registros están vacíos. Usar "Missing" como valor puede ser más apropiado para no distorsionar la interpretación de los valores existentes.

- **Ventajas:** 
  - Permite identificar explícitamente los valores faltantes, lo cual es útil cuando los valores faltantes representan una categoría separada y no deben ser imputados con los valores más frecuentes.
  
- **Desventajas:** 
  - Introducir una nueva categoría como "Missing" puede complicar el análisis posterior, especialmente si se usa para variables que tienen un impacto significativo en el modelo, ya que algunos modelos no manejan bien las categorías adicionales.

- [Enlace de Referencia](https://www.scaler.com/topics/data-science/categorical-missing-values/)


In [95]:
def imputacionFija(data, columna):
  data[columna].fillna('Missing', inplace=True)
  return data

##### Imputación Aleatoria

Este método es útil cuando se quiere mantener la **variabilidad** de las categorías y los valores faltantes no siguen un patrón predecible. Es ideal para columnas donde las categorías están bastante equilibradas o no hay una categoría dominante clara, como en **"GarageType"** o **"Electrical"**.

- **Ventajas:** 
  - Preserva la variabilidad y diversidad de las categorías en el dataset. Ideal para variables como **"GarageType"** donde las categorías podrían tener una distribución más equilibrada.
  
- **Desventajas:** 
  - Si las categorías tienen una distribución muy desigual, el muestreo aleatorio podría introducir sesgos o ruido, especialmente si la categoría de la que se toma la muestra es poco representativa.

- [Enlace de Referencia](https://www.scaler.com/topics/data-science/categorical-missing-values/)

In [96]:
def imputacionAleatoria(data, columna):
  categoria_prob = data[columna].value_counts(normalize=True)
  indices_faltantes = data[data[columna].isnull()].index
  data.loc[indices_faltantes, columna] = np.random.choice(categoria_prob.index, size=len(indices_faltantes), p=categoria_prob.values)
  return data

##### Imputación por más Frecuente

Este método es útil cuando existe una categoría dominante en los datos y queremos reemplazar los valores nulos con la categoría que aparece con mayor frecuencia. Es especialmente aplicable en columnas como **"Alley"**, **"MasVnrType"** o **"GarageQual"**, donde hay una categoría que es mucho más frecuente que las demás, y reemplazar los valores faltantes con ella no distorsiona el patrón general.

- **Ventajas:**
  - **Simplicidad y efectividad:** Este enfoque es sencillo y rápido de implementar. Es adecuado cuando una categoría representa la mayoría de los registros y los valores nulos no siguen un patrón claro.
  - **Preserva la distribución de las categorías:** Se asegura de que la categoría más representativa no se vea afectada, lo que puede ser crucial en análisis posteriores.

- **Desventajas:**
  - **Puede distorsionar la distribución:** Si los valores faltantes tienen un patrón específico o los nulos no son representativos de la categoría más frecuente, esta imputación puede sesgar los resultados. Esto es especialmente relevante si el valor más frecuente no es adecuado para los registros faltantes.
  - **Riesgo de sobrecargar una categoría:** En casos de datos desequilibrados, este método podría dar lugar a una concentración excesiva de una categoría, afectando el análisis o los modelos que podrían no ser sensibles a los cambios en la distribución de las categorías.

- [Enlace de Referencia](https://codificandobits.com/tutorial/manejo-datos-categoricos-faltantes/)



In [97]:
from sklearn.impute import SimpleImputer

def imputacionMasFrecuente(data, categorias):
  imputer = SimpleImputer(strategy='most_frequent')
  data[[categorias]] = imputer.fit_transform(data[[categorias]])
  return data

In [98]:
def imputarDatosCategoricos(data, flag_nulls=4):
  columnas = [
    'Alley', 'MasVnrType', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 
    'BsmtFinType1', 'BsmtFinType2', 'Electrical', 'FireplaceQu', 
    'GarageType', 'GarageFinish', 'GarageQual', 'GarageCond', 
    'PoolQC', 'Fence', 'MiscFeature'
  ]
  
  for columna in columnas:
    if flag_nulls == 1:
      print(f"Ejecutando imputación con el método 1: Imputación por Moda para la columna {columna}")
      data = imputacionModa(data, columna)
    elif flag_nulls == 2:
      print(f"Ejecutando imputación con el método 2: Imputación por Valor Fijo 'Missing' para la columna {columna}")
      data = imputacionFija(data, columna)
    elif flag_nulls == 3:
      print(f"Ejecutando imputación con el método 3: Imputación Aleatoria para la columna {columna}")
      data = imputacionAleatoria(data, columna)
    elif flag_nulls == 4:
      print(f"Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna {columna}")
      data = imputacionMasFrecuente(data, columna)
    else:
      print(f"Método no reconocido para la columna {columna}. No se realizó imputación.")
  
  return data

if result_nulls:
  imputarDatosCategoricos(data=data, flag_nulls=4)
  result = saveNullInfo(data=data, fileSave="null_columns_info_without_numerics_categorics.txt")

Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna Alley
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna MasVnrType
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna BsmtQual
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna BsmtCond
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna BsmtExposure
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna BsmtFinType1
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna BsmtFinType2
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna Electrical
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna FireplaceQu
Ejecutando imputación con el método 4: Imputación por más Frecuente para la columna GarageType
Ejecutando imputación con el método 4: Imputación po

Archivo 'null_columns_info_without_numerics_categorics.txt' generado correctamente.


### Estrategia Para Manejo de Datos Duplicados

No se encontraron duplicados en los datos, por lo que este paso no fue necesario. Sin embargo, se ha dejado la función implementada para eliminar duplicados en caso de que se detecten en el futuro.

In [99]:
def eliminarDuplicados(data):
  if data.duplicated().any():
    print("Existen duplicados. Se procederá a eliminarlos.")
    data = data.drop_duplicates(keep='first')
  else:
    print("No se encontraron duplicados. No se realizará ninguna acción.")
  return data

eliminarDuplicados(data=data)

No se encontraron duplicados. No se realizará ninguna acción.


Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,Grvl,Reg,Lvl,AllPub,...,0,Gd,MnPrv,Shed,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,Grvl,Reg,Lvl,AllPub,...,0,Gd,MnPrv,Shed,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,Grvl,IR1,Lvl,AllPub,...,0,Gd,MnPrv,Shed,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,Grvl,IR1,Lvl,AllPub,...,0,Gd,MnPrv,Shed,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,Grvl,IR1,Lvl,AllPub,...,0,Gd,MnPrv,Shed,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,Grvl,Reg,Lvl,AllPub,...,0,Gd,MnPrv,Shed,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,Grvl,Reg,Lvl,AllPub,...,0,Gd,MnPrv,Shed,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,Grvl,Reg,Lvl,AllPub,...,0,Gd,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,Grvl,Reg,Lvl,AllPub,...,0,Gd,MnPrv,Shed,0,4,2010,WD,Normal,142125


### Generación de Nuevo Conjunto de Datos

Después de aplicar los procesos de limpieza para manejar valores nulos y duplicados, se generará un nuevo conjunto de datos. Este dataset limpio se utilizará en adelante para evitar la repetición de los procesos de limpieza en futuras etapas del análisis.

In [100]:
data.to_csv('../data/train_clean.csv', index=False)