## Preprocesamiento de Datos

En este ejemplo se utiliza python para realizar el preprocesamiento de los siguientes datos:

| Variable       | Tipo             | Descripción                                         |
|----------------|------------------|-----------------------------------------------------|
| clima       | Cadena  | Es el clima actual de la ciudad (soleado, nublado, lluvioso)                |
| temperatura       | Cadena  | Temperatura actual de la ciudad (caliente, templado, frio)                |
| Sequía       | Cadena  | Describe la existencia de sequía para la ciudad  (si, no)                |

El conjunto de datos tiene 60 registros y los pasos que seguiremos son los siguientes:

1. **Revisión de los datos:** Verificamos la estructura y contenido de los datos.
2. **Limpieza de datos:** Eliminación de valores nulos y corrección de errores tipográficos.
3. **Conversión de tipos de datos:** Aseguramos que cada columna tenga el tipo de dato adecuado.
4. **Codificación de variables categóricas:** Convertimos las variables categóricas en variables numéricas si es necesario.
5. **Normalización/Estandarización:** Ajuste de los valores numéricos a una escala común.


### Paso 1: Revisión de los datos

Revisamos la estructura y el contenido del archivo.

In [1]:
# Importamos la librería para el manejo de los datos
import pandas as pd

# Cargamos el archivo CSV a un Dataframe
data = pd.read_csv('data/1.5-clima.csv')

# Mostrar los datos
data

Unnamed: 0,clima,temperatura,sequia
0,soleado,caliente,si
1,soleado,caliente,si
2,nublado,caliente,si
3,lluvioso,templado,si
4,luvioso,frio.,no
5,lluvioso,frio.,no
6,nublado,frio.,si
7,soleado,templado,no
8,soleado,frio,si
9,lluvioso,templado,si


### Paso 2: Limpieza de datos

Eliminación de valores nulos y corrección de errores tipográficos.

In [8]:
# Verificar valores nulos
print(data.isnull().sum())

# Se eliminan valores nulos
data = data.dropna()

# Se muestran los registros sin los valores nulos
print("---------------------")
data



clima          0
temperatura    0
sequia         0
dtype: int64
---------------------


Unnamed: 0,clima,temperatura,sequia
0,soleado,caliente,si
1,soleado,caliente,si
2,nublado,caliente,si
3,lluvioso,templado,si
4,lluvioso,frio,no
5,lluvioso,frio,no
6,nublado,frio,si
7,soleado,templado,no
8,soleado,frio,si
9,lluvioso,templado,si


In [9]:
# Corregir errores tipográficos
data['clima'] = data['clima'].replace('luvioso', 'lluvioso')
data['clima'] = data['clima'].replace('solead', 'soleado')
data['temperatura'] = data['temperatura'].replace('frio.', 'frio')

# Mostrar los datos corregidos (10 primeras filas)
data.head(10)

Unnamed: 0,clima,temperatura,sequia
0,soleado,caliente,si
1,soleado,caliente,si
2,nublado,caliente,si
3,lluvioso,templado,si
4,lluvioso,frio,no
5,lluvioso,frio,no
6,nublado,frio,si
7,soleado,templado,no
8,soleado,frio,si
9,lluvioso,templado,si


### Paso 3: Conversión de tipos de datos

Aseguramos que cada columna tenga el tipo de dato adecuado, como los datos son de tipo cadena no es necesario hacer conversión.

In [10]:
# Verificar y convertir tipos de datos si es necesario
print(data.dtypes)


clima          object
temperatura    object
sequia         object
dtype: object


### Paso 4: Codificación de variables categóricas

Convertimos las variables categóricas a numéricas usando One-Hot Encoding.

In [11]:
# Codificar variables categóricas
data_encoded = pd.get_dummies(data, columns=['clima', 'temperatura'])

# Mostrar los datos codificados (5 primeras filas)
data_encoded.head(5)

Unnamed: 0,sequia,clima_lluvioso,clima_nublado,clima_soleado,temperatura_caliente,temperatura_frio,temperatura_templado
0,si,False,False,True,True,False,False
1,si,False,False,True,True,False,False
2,si,False,True,False,True,False,False
3,si,True,False,False,False,False,True
4,no,True,False,False,False,True,False


### Paso 5: Normalización/Estandarización

En este caso, no hay variables numéricas para normalizar.

### Conclusión


Este preprocesamiento nos permite preparar los datos para su uso en análisis y modelos predictivos, mejorando la calidad y la estructura de los datos.