| ![Isaac Zainea](https://raw.githubusercontent.com/Izainea/Izainea.github.io/master/logo.png) | Curso de Introducción a la Analítica de Datos | Isaac Zainea |
|:---:|:---:|:---:|

# Limpieza y preprocesamiento de datos

# Título: Limpieza y Preprocesamiento de Datos

## Tabla de Contenidos:
1. [Introducción y Motivación](#introducción-y-motivación)
2. [Objetivos](#objetivos)
3. [Sección 1: Identificación y Tratamiento de Datos Faltantes](#sección-1-identificación-y-tratamiento-de-datos-faltantes)
4. [Sección 2: Gestión de Valores Atípicos](#sección-2-gestión-de-valores-atípicos)
5. [Sección 3: Normalización y Estandarización de Datos](#sección-3-normalización-y-estandarización-de-datos)
6. [Sección 4: Codificación y Transformación de Variables Categóricas](#sección-4-codificación-y-transformación-de-variables-categóricas)
7. [Sección 5: Discretización y Binning de Variables Continuas](#sección-5-discretización-y-binning-de-variables-continuas)
8. [Sección 6: Eliminación de Duplicados y Deduplicación de Datos](#sección-6-eliminación-de-duplicados-y-deduplicación-de-datos)
9. [Sección 7: Técnicas de Muestreo y Remuestreo de Datos](#sección-7-técnicas-de-muestreo-y-remuestreo-de-datos)
10. [Sección 8: Integración y Unificación de Datos](#sección-8-integración-y-unificación-de-datos)


## Introducción y Motivación

En esta sección se abordarán las técnicas de limpieza y preprocesamiento de datos, las cuales son de vital importancia para el desarrollo de un proyecto de analítica de datos.

## Objetivos

- Identificar y tratar datos faltantes.
- Identificar y tratar valores atípicos.
- Normalizar y estandarizar datos.
- Codificar y transformar variables categóricas.
- Discretizar y binning de variables continuas.
- Eliminar duplicados y deduplicar datos.
- Aplicar técnicas de muestreo y remuestreo de datos.
- Integrar y unificar datos.

- Normalización min-max
```python 
from sklearn.preprocessing 
import MinMaxScaler  
scaler = MinMaxScaler()  
df['columna_normalizada'] = scaler.fit_transform(df[['columna']])
```
- Estandarización Z-score    
```python 
from sklearn.preprocessing 
import StandardScaler  
scaler = StandardScaler()  
df['columna_estandarizada'] = scaler.fit_transform(df[['columna']])
```
- Escalado por Robustez      
```python 
from sklearn.preprocessing 
import RobustScaler
scaler = RobustScaler()  
df['columna_escalada'] = scaler.fit_transform(df[['columna']])
```
- Escalado por Máximo Absoluto      
```python
from sklearn.preprocessing
import MaxAbsScaler
scaler = MaxAbsScaler()
df['columna_escalada'] = scaler.fit_transform(df[['columna']])
```
- Escalado por Cuantiles      
```python
from sklearn.preprocessing
import QuantileTransformer
scaler = QuantileTransformer()
df['columna_escalada'] = scaler.fit_transform(df[['columna']])
```

- Codificación One-Hot       
```python 
encoded_df = pd.get_dummies(df['columna'])
```

- Codificación de Etiquetas  
```python 
from sklearn.preprocessing 
import LabelEncoder  
encoder = LabelEncoder()  
df['columna_codificada'] = encoder.fit_transform(df['columna'])
``` 
- Codificación Ordinal       
```python 
ordering = ['categoria1', 'categoria2', 'categoria3']  
df['columna_codificada'] = df['columna'].map(lambda x: ordering.index(x))
```
