# M√≥dulo 2 ‚Äì Limpieza y Transformaci√≥n de Datos

En esta sesi√≥n aprender√°s a preparar tus datos antes de un an√°lisis profundo. Trabajaremos con los datasets **`salarios.csv`** y **`paises.csv`** ubicados en `data/raw/`.


##  Objetivos de la sesi√≥n
- Detectar y manejar **valores nulos** y **duplicados**.
- Limpiar columnas monetarias y convertir tipos de datos.
- **Unir** (merge) datasets por claves comunes.
- Crear **nuevas columnas** √∫tiles para el an√°lisis.
- Exportar los datos limpios a `data/processed/`.


## Recuerden la Estructura de un proyecto

Una estructura recomendada puede ser:
```
project-name/
‚îú‚îÄ‚îÄ assest/           # Imagenes, graficos (generalmente no se sube a github)
‚îú‚îÄ‚îÄ data/             # Datos crudos y procesados
    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ raw/   
    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ processed/   --> Crear esta carpeta si no la tienen
‚îú‚îÄ‚îÄ notebooks/        # Notebooks del proyecto
‚îú‚îÄ‚îÄ utils/            # Funciones auxiliares
‚îú‚îÄ‚îÄ docs/             # Documentaci√≥n
‚îú‚îÄ‚îÄ README.md         # Descripci√≥n general
‚îú‚îÄ‚îÄ environment.yml   # Dependencias usando conda
‚îî‚îÄ‚îÄ requirements.txt  # Dependencias usando pip

---
## 1 ¬∑ Importar librer√≠as y cargar datasets
Comenzamos cargando Pandas y leyendo los archivos CSV desde la carpeta `data/raw/`.


### üì¶ Librer√≠as que usaremos
Importamos m√≥dulos clave para:

* **pandas / numpy** ‚Üí manipulaci√≥n num√©rica y tabular  
* **matplotlib / seaborn** ‚Üí gr√°ficos r√°pidos (los usaremos m√°s adelante)  
* **pathlib** ‚Üí manejar rutas de forma independiente del sistema operativo

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

### üîç Ubicar el archivo de salarios
Utilizamos la constante `DATA_RAW_DIR` (definida en `utils.paths`) para construir
la ruta absoluta a **salarios.csv**.  
Esto evita escribir paths ‚Äúhard-codeados‚Äù y hace el notebook portable.

In [None]:
#Importar la carpeta de datos raw desde paths
from cursos.analisis_datos.utils.paths import DATA_RAW_DIR

#definir un path o ruta con Path
path_salarios = DATA_RAW_DIR / "salarios.csv"
path_salarios = str(path_salarios)

print(f"Ruta del archivo salarios: {path_salarios}")
print(f"existe archivo salarios: {Path(path_salarios).exists()}")

### üì• Carga del dataset de salarios
Leemos el archivo con `pd.read_csv()`.  
* `sep=','` porque es un CSV est√°ndar.  
* `encoding='utf-8'` asegura que caracteres latinos/acentos se lean bien.

In [None]:
df_salarios = pd.read_csv(filepath_or_buffer=path_salarios, sep=',', encoding='utf-8')

In [None]:
df_salarios.head(7)

---
## 2 ¬∑ Explorar la estructura del dataset
### 2.1 Informaci√≥n general
Revisamos tipos de datos, cantidad de filas/columnas y valores nulos.


### üè∑Ô∏è Inspecci√≥n r√°pida del DataFrame
`df.info()` resume:
* Columnas y tipos (`object`, `int64`, etc.)  
* Filas no-nulas por columna ‚Üí detectamos valores faltantes (`pais`, `empresa`)  
* Memoria ocupada

In [None]:
df_salarios.info()

### 2.2 Estad√≠sticas descriptivas r√°pidas


### üìä Estad√≠sticas descriptivas
`df.describe()` genera medidas (count, mean, std‚Ä¶) solo para columnas
num√©ricas. Aqu√≠ vemos *edad* y *a√±os en la empresa*.  
Esto ayuda a detectar outliers y entender la dispersi√≥n.

In [None]:
df_salarios.describe()

---
## 3 ¬∑ Limpiar columnas monetarias
Las columnas `sueldo_anual` y `bono_anual` tienen s√≠mbolos de moneda. Eliminamos `$` y `‚Ç¨` y convertimos a `float`.


In [None]:
df_salarios.head()

Revisar las columnas `sueldo_anual` y `bono_anual` pues tienen los simbolos de moneda

### üí≤ Columnas monetarias originales
Previsualizamos `sueldo_anual` y `bono_anual` antes de limpiarlas.
Observa que contienen s√≠mbolos (`$`, `‚Ç¨`) 

In [None]:
# escribe tu codigo aqui
df_salarios[['sueldo_anual', 'bono_anual']]

Renombrar las columnas usando `.rename`

```python
columns={
        "sueldo_anual": "sueldo_anual_dolares",
        "bono_anual": "bono_anual_euros"
    }
```

In [None]:
# escribe tu codigo aqui


Revisar si las columnas cambiaron de nombre con `.columns`

In [None]:
# escribe tu codigo aqui


Reemplazar el simbolo de d√≥lar `$` por  `''` utilizando el m√©todo `.replace()` 

### ‚úÇÔ∏è Eliminar s√≠mbolo de d√≥lar
`str.replace('$','')` quita el car√°cter pero **deja las comas**.
A√∫n es tipo `object` (string); falta:
1. eliminar comas,
2. convertir a `float`.

In [None]:
# escribe tu codigo aqui


Cambiar el tipo de dato de sueldo_anual_dolares con `.astype(float)`

> **Nota:** se produce un `ValueError` porque todav√≠a hay **celdas vac√≠as**
  (`''`) o valores con comas que impiden la conversi√≥n directa a `float`.

In [None]:

df_salarios['sueldo_anual_dolares'] = df_salarios['sueldo_anual_dolares'].astype(float)

### Funcion√≥? o Cu√°l es el error?

##### Tu respuesta aqui

reemplazar las celdas vacias `''`

### üõ†Ô∏è Reemplazar strings vac√≠os por `NaN`
Usamos `.replace('', np.nan)` para que pandas los reconozca como faltantes
y permita la conversi√≥n num√©rica en el siguiente paso.

In [None]:
# escribe tu codigo aqui


Cambiar el tipo de datos con `.astype(float)`

### üîÑ Convertir a num√©rico
Ahora que no hay s√≠mbolos ni strings vac√≠os, `astype(float)` funciona.
El resultado es una columna `float64` lista para c√°lculos.

In [None]:
# escribe tu codigo aqui


Revisar que valores de `sueldo_anual_dolares` tienen el valor `np.nan`

### üìå Ver cu√°ntos salarios quedaron como `NaN`
Esto nos indica cu√°ntos registros tendr√°n que imputarse
o eliminarse en el siguiente bloque de limpieza.

In [None]:
# escribe tu codigo aqui


### üîç Inspeccionar filas con salario faltante
Listamos las 7 filas donde `sueldo_anual_dolares` es `NaN`.
Podremos decidir si:
* imputar con la mediana por cargo/pa√≠s,  
* o eliminar si los valores son cr√≠ticos.

In [None]:
df_salarios[df_salarios['sueldo_anual_dolares'].isna()]

Ahora el mismo proceso con el s√≠mbolo de euros `‚Ç¨`

In [None]:
df_salarios['bono_anual_euros'] = (df_salarios['bono_anual_euros'].str.replace('‚Ç¨', ''))

In [None]:
df_salarios['bono_anual_euros'] = (df_salarios['bono_anual_euros'].astype(float))

In [None]:
df_salarios[df_salarios['bono_anual_euros'].isna()]

In [None]:
df_salarios[['sueldo_anual_dolares', 'bono_anual_euros']].head()

---
## 4 ¬∑ Detecci√≥n y manejo de valores nulos
### 4.1 Contar nulos por columna


In [None]:
df_salarios.isnull().sum()

> **Estrategias comunes:**
- **Eliminar** filas/columnas con muchos nulos (`dropna`).
- **Imputar** con media/mediana/moda (`fillna`).
- **Revisar** si los nulos tienen significado en tu an√°lisis.


Revisemos el caso de la columna `['pais']`

In [None]:
# escribe tu codigo aqui

In [None]:
df_salarios = df_salarios.dropna(subset=["pais"])

In [None]:
df_salarios.isnull().sum()

Ahora revisemos el caso de la columna `["nombre_de_la_empresa"]`

In [None]:
df_salarios[df_salarios["nombre_de_la_empresa"].isna()]

No es necesario eliminar esos datos, pues podemos clasificarlos como `"Empresa Desconocida"`

In [None]:
# escribe tu codigo aqui

In [None]:
df_salarios[df_salarios["nombre_de_la_empresa"].isna()]

In [None]:
df_salarios.isnull().sum()

Revisemos el caso de `["sueldo_anual_dolares"]`

In [None]:
df_salarios[df_salarios["sueldo_anual_dolares"].isna()]

Al no existir el registro de sueldos, la decision que tomamos fue eliminar esas filas con `dropna()`

In [None]:
df_salarios = df_salarios.dropna(subset=["sueldo_anual_dolares"])

In [None]:
df_salarios.isnull().sum()

Ahora no tenemos valores nulos

---
## 5 ¬∑ Detecci√≥n y manejo de duplicados
Buscamos registros exactos repetidos.


In [None]:
duplicados = # escribe tu codigo aqui
print(f'Duplicados encontrados: {duplicados.sum()}')

In [None]:
df_salarios = df_salarios.drop_duplicates()

In [None]:
duplicados = df_salarios.duplicated()
print(f'Duplicados encontrados: {duplicados.sum()}')

In [None]:
df_salarios.info()

### üî¢ Reiniciar √≠ndices
`reset_index(drop=True)` crea un nuevo √≠ndice consecutivo (0 ‚Üí n-1) y descarta el √≠ndice anterior.  
√ötil despu√©s de eliminar filas o reordenar el DataFrame para evitar huecos o duplicados en la numeraci√≥n.

In [None]:
df_salarios = df_salarios.reset_index(drop=True)

In [None]:
df_salarios.info()

### üí± Conversi√≥n de Euros a D√≥lares  
Definimos una **tasa de cambio fija** `TASA_EUR_USD = 1.10` (1 ‚Ç¨ ‚Üí 1.10 US$)  
y creamos la columna `bono_anual_dolares` multiplicando cada valor en  
`bono_anual_euros` por esa tasa. Esta operaci√≥n es vectorizada: se aplica  
a toda la columna sin necesidad de bucles y deja ambos montos disponibles  
para comparaciones o visualizaciones futuras.

In [None]:
df_salarios.head()

In [None]:
# 1 ‚Ç¨ ‚âà 1.10 USD
TASA_EUR_USD = 1.10

In [None]:
df_salarios["bono_anual_dolares"] = (
    df_salarios["bono_anual_euros"] * TASA_EUR_USD
)

In [None]:
df_salarios[["bono_anual_euros", "bono_anual_dolares"]]

### üìè Ajuste de precisi√≥n  
Redondeamos `bono_anual_dolares` a **una cifra decimal** (`round(1)`) para  
homogeneizar el formato de los valores monetarios y evitar ‚Äúruido‚Äù de  
centavos insignificantes al presentar o agrupar los datos.

In [None]:
# escribe tu codigo aqui

In [None]:
df_salarios[["bono_anual_euros", "bono_anual_dolares"]]

In [None]:
df_salarios.info()

## 6 ¬∑ Cargar el dataframe de pa√≠ses


In [None]:
#definir un path o ruta con Path
path_paises = DATA_RAW_DIR / "paises.csv"
path_paises = str(path_paises)

print(f"Ruta del archivo paises: {path_paises}")
print(f"existe archivo paises: {Path(path_paises).exists()}")

In [None]:
df_paises = pd.read_csv(filepath_or_buffer=path_paises, sep=',', encoding='utf-8')

In [None]:
df_paises.head()

In [None]:
df_paises['pais'].unique()

In [None]:
df_paises['pais'].nunique()

In [None]:
df_salarios['pais'].unique()

In [None]:
df_salarios['pais'].nunique()

In [None]:
paises_en_df_paises = set(df_paises["pais"])
paises_en_df_paises

In [None]:
paises_en_df_salarios = set(df_salarios["pais"])
paises_en_df_salarios

### üîç Identificar discrepancias entre DataFrames

1. **`paises_faltantes_en_df_paises`**  
   Conjunto de pa√≠ses que **est√°n en `df_paises` pero no aparecen** en `df_salarios`.

2. **`paises_faltantes_en_df_salarios`**  
   Conjunto inverso: pa√≠ses presentes en `df_salarios`, ausentes en `df_paises`.

3. **`paises_faltantes`**  
   Uni√≥n (`|`) de ambos conjuntos ‚Üí lista global de **todos los pa√≠ses que no coinciden** entre los dos DataFrames.  
   √ötil para decidir si imputar, descartar o investigar la fuente de datos.

In [None]:
paises_faltantes_en_df_paises = paises_en_df_paises - paises_en_df_salarios
paises_faltantes_en_df_paises

In [None]:
paises_faltantes_en_df_salarios =  paises_en_df_salarios - paises_en_df_paises
paises_faltantes_en_df_salarios

In [None]:
paises_faltantes = paises_faltantes_en_df_paises | paises_faltantes_en_df_salarios
paises_faltantes

In [None]:
df_paises[df_paises['pais'].isin(paises_faltantes)]

### üóëÔ∏è Eliminar registros espec√≠ficos  
Usamos `drop(index=[1, 8, 9])` para remover las filas cuyo √≠ndice es 1, 8 y 9  
(Brasil, Ecuador y Bolivia en este caso). Esto excluye esos pa√≠ses del  
DataFrame `df_paises` antes de realizar uniones o an√°lisis posteriores.

In [None]:
# escribe tu codigo aqui

In [None]:
df_paises.reset_index(drop=True, inplace=True)

In [None]:
df_paises

### üí≤ Limpieza y conversi√≥n de columnas monetarias  
Seleccionamos las columnas `PIB` e `ingreso_per_capita` y:

1. **`replace({'\\$': '', ',': ''}, regex=True)`**  
   - Elimina el s√≠mbolo de d√≥lar (`$`) y las comas de miles (`,`).  
   - `regex=True` permite usar patrones de expresi√≥n regular.

2. **`astype(float)`**  
   - Convierte las cadenas ya limpias a valores num√©ricos (`float64`).

Resultado: ambas columnas quedan listas para c√°lculos y comparaciones
estad√≠sticas sin s√≠mbolos ni separadores.

In [None]:
df_paises[["PIB", "ingreso_per_capita"]] = (df_paises[["PIB", "ingreso_per_capita"]].replace({'\\$': '', ',': ''}, regex=True).astype(float))

In [None]:
df_paises.head()

In [None]:
df_paises.isnull().sum()

---
## 7 ¬∑ Unir datasets (`merge`)
Unimos `df_salarios` con `df_paises` por la columna `pais` para enriquecer la informaci√≥n.


In [None]:
# escribe tu codigo aqui

In [None]:
df_salarios_pais.head()

---
## 8 ¬∑ Crear columnas derivadas


### üí∞ M√©trica de compensaci√≥n total  
Creamos `compensacion_total` sumando el salario anual (`sueldo_anual_dolares`)  
y el bono anual convertido a d√≥lares (`bono_anual_dolares`).  
Esta columna refleja cu√°nto percibe realmente cada empleado en un a√±o,  
facilitando an√°lisis comparativos por pa√≠s, cargo o empresa.

In [None]:
# escribe tu codigo aqui

In [None]:
df_salarios_pais.head()

### üèÜ Clasificaci√≥n de senioridad  
Creamos la columna `senioridad` con `np.where`:

* **Condici√≥n** ‚Üí `anos_en_la_empresa > 5`  
  - Si el empleado lleva **m√°s de 5 a√±os**, se le etiqueta como **"Senior"**.  
  - En caso contrario, se marca como **"Junior"**.

As√≠ obtenemos una variable categ√≥rica que nos ayudar√° a comparar
compensaciones y otros indicadores entre niveles de experiencia.

In [None]:
# escribe tu codigo aqui

In [None]:
df_salarios_pais[['nombre', 'apellido', 'anos_en_la_empresa','compensacion_total', 'senioridad']].head(10)

### üîé Revisi√≥n de valores nulos por columna  
`df_salarios_pais.isna().sum()` muestra cu√°ntos `NaN` hay en cada columna  
tras el merge. Los resultados indican que los registros de **Costa Rica**  
a√∫n presentan nulos en `capital`, `PIB`, `cantidad_de_habitantes` e  
`ingreso_per_capita`. Conviene imputar o investigar estos campos antes de  
continuar con el an√°lisis para evitar sesgos o errores en c√°lculos agregados.

In [None]:
df_salarios_pais.isna().sum()

In [None]:
df_salarios_pais[df_salarios_pais['pais'] == 'Costa Rica']

### üîç Filtrar filas de Costa Rica  
Creamos `mask_cr` para identificar las filas donde `pais == "Costa Rica"` y,  
con `loc`, mostramos √∫nicamente esos registros. As√≠ podemos inspeccionar  
qu√© columnas siguen con `NaN` y decidir c√≥mo imputarlas o ajustarlas.

In [None]:
mask_cr = df_salarios_pais["pais"] == "Costa Rica"
df_salarios_pais.loc[mask_cr]

### üìù Diccionario con datos oficiales de Costa Rica  
Definimos `datos_cr` con los valores verificados para imputar en las filas  
de Costa Rica:

* **capital:** San Jos√©  
* **cantidad_de_habitantes:** 5 150 000  
* **PIB:** 86 500 000 000 USD  
* **ingreso_per_capita:** 14 319 USD

Estos n√∫meros reemplazar√°n los `NaN` correspondientes en el DataFrame.

In [None]:
datos_cr = {
    "capital": "San Jos√©",
    "cantidad_de_habitantes": 5150000,
    "PIB": 86500000000,
    "ingreso_per_capita": 14319
}

### üõ†Ô∏è Imputar valores faltantes para Costa Rica  
Recorremos `datos_cr` y, para cada columna:

1. **Ubicamos** √∫nicamente las filas de Costa Rica (`mask_cr`).  
2. **`fillna(valor)`** reemplaza solo los `NaN` con el dato oficial correspondiente.  
3. Asignamos el resultado de vuelta a la misma columna, dejando intactos los
   registros de otros pa√≠ses.

De este modo, Costa Rica queda completa sin alterar los valores ya correctos.

In [None]:
# escribe tu codigo aqui

In [None]:
df_salarios_pais.loc[mask_cr]

### ‚úÖ Verificaci√≥n final de nulos  
Ejecutamos `df_salarios_pais.isnull().sum()` para confirmar que **todas las  
columnas ahora muestran 0 valores faltantes**. Nuestro DataFrame est√° listo  
para pasar al An√°lisis Exploratorio de Datos sin riesgos de errores por `NaN`.

In [None]:
# escribe tu codigo aqui

In [None]:
df_salarios_pais.info()

---
## 9 ¬∑ Exportar dataset limpio


In [None]:
from cursos.analisis_datos.utils.paths import DATA_PROCESSED_DIR

In [None]:
salarios_pais_path = DATA_PROCESSED_DIR / "salarios_pais.csv"
salarios_pais_path = str(salarios_pais_path)

print(f"Ruta del archivo salarios_paises: {salarios_pais_path}")
print(f"existe archivo salarios_pais: {Path(salarios_pais_path).exists()}")

### üíæ Exportar dataset limpio  
`to_csv(..., index=False, sep=',', encoding='utf-8')` guarda `df_salarios_pais` como un CSV en la ruta definida por `salarios_pais_path`, sin incluir la columna de √≠ndice y usando codificaci√≥n UTF-8.  
La l√≠nea `print()` confirma en pantalla la ubicaci√≥n del archivo generado, facilitando su localizaci√≥n para futuros an√°lisis o compartici√≥n.

In [None]:
# escribe tu codigo aqui

In [None]:
print(f' Dataset limpio exportado a {salarios_pais_path}')

In [None]:
print(f"existe archivo salarios_pais: {Path(salarios_pais_path).exists()}")

---
## 10 ¬∑ Resumen 
En esta pr√°ctica aprendiste a:
- Limpiar columnas con s√≠mbolos.
- Detectar/llenar nulos y eliminar duplicados.
- Realizar un **merge** y enriquecer tu informaci√≥n.
- Crear m√©tricas derivadas y exportar datos limpios.

