# M√≥dulo 2 ‚Äì Limpieza y Transformaci√≥n de Datos

En esta sesi√≥n aprender√°s a preparar tus datos antes de un an√°lisis profundo. Trabajaremos con los datasets **`salarios.csv`** y **`paises.csv`** ubicados en `data/raw/`.


##  Objetivos de la sesi√≥n
- Detectar y manejar **valores nulos** y **duplicados**.
- Limpiar columnas monetarias y convertir tipos de datos.
- **Unir** (merge) datasets por claves comunes.
- Crear **nuevas columnas** √∫tiles para el an√°lisis.
- Exportar los datos limpios a `data/processed/`.


## Recuerden la Estructura de un proyecto

Una estructura recomendada puede ser:
```
project-name/
‚îú‚îÄ‚îÄ assest/           # Imagenes, graficos (generalmente no se sube a github)
‚îú‚îÄ‚îÄ data/             # Datos crudos y procesados
    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ raw/   
    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ processed/   --> Crear esta carpeta si no la tienen
‚îú‚îÄ‚îÄ notebooks/        # Notebooks del proyecto
‚îú‚îÄ‚îÄ utils/            # Funciones auxiliares
‚îú‚îÄ‚îÄ docs/             # Documentaci√≥n
‚îú‚îÄ‚îÄ README.md         # Descripci√≥n general
‚îú‚îÄ‚îÄ environment.yml   # Dependencias usando conda
‚îî‚îÄ‚îÄ requirements.txt  # Dependencias usando pip

---
## 1 ¬∑ Importar librer√≠as y cargar datasets
Comenzamos cargando Pandas y leyendo los archivos CSV desde la carpeta `data/raw/`.


### üì¶ Librer√≠as que usaremos
Importamos m√≥dulos clave para:

* **pandas / numpy** ‚Üí manipulaci√≥n num√©rica y tabular  
* **matplotlib / seaborn** ‚Üí gr√°ficos r√°pidos (los usaremos m√°s adelante)  
* **pathlib** ‚Üí manejar rutas de forma independiente del sistema operativo

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

### üîç Ubicar el archivo de salarios
Utilizamos la constante `DATA_RAW_DIR` (definida en `utils.paths`) para construir
la ruta absoluta a **salarios.csv**.  
Esto evita escribir paths ‚Äúhard-codeados‚Äù y hace el notebook portable.

In [2]:
!pwd

/Users/jssdev/Dev/Projects/Pydata/pydatapanama-cursos


In [2]:
#Importar la carpeta de datos raw desde paths
from cursos.analisis_datos.utils.paths import DATA_RAW_DIR

#definir un path o ruta con Path
path_salarios = DATA_RAW_DIR / "salarios.csv"
path_salarios = str(path_salarios)

print(f"Ruta del archivo salarios: {path_salarios}")
print(f"existe archivo salarios: {Path(path_salarios).exists()}")

Ruta del archivo salarios: /Users/jssdev/Dev/Projects/Pydata/pydatapanama-cursos/cursos/analisis_datos/data/raw/salarios.csv
existe archivo salarios: True


### üì• Carga del dataset de salarios
Leemos el archivo con `pd.read_csv()`.  
* `sep=','` porque es un CSV est√°ndar.  
* `encoding='utf-8'` asegura que caracteres latinos/acentos se lean bien.

In [3]:
df_salarios = pd.read_csv(filepath_or_buffer=path_salarios, sep=',', encoding='utf-8')

In [4]:
df_salarios.head(7)

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual,bono_anual
0,Jos√©,L√≥pez,36,Chile,S√≠,Mercado Libre,Python Developer,2,$71841,‚Ç¨4981
1,Fernanda,Vargas,39,Chile,S√≠,Amazon,AI Software Engineer,2,$142115,‚Ç¨1252
2,Fernanda,Ram√≠rez,30,Colombia,No,Facebook,Machine Learning Engineer,2,$92278,‚Ç¨5262
3,Jos√©,G√≥mez,35,Chile,S√≠,Mercado Libre,Python Developer,12,$97130,‚Ç¨3671
4,Ana,P√©rez,32,Panam√°,No,Amazon,Project Manager,2,$61413,‚Ç¨10190
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,$84987,‚Ç¨5493
6,Andrea,Vargas,58,Chile,No,Mercado Libre,Data Scientist,9,$96936,‚Ç¨4911


---
## 2 ¬∑ Explorar la estructura del dataset
### 2.1 Informaci√≥n general
Revisamos tipos de datos, cantidad de filas/columnas y valores nulos.


### üè∑Ô∏è Inspecci√≥n r√°pida del DataFrame
`df.info()` resume:
* Columnas y tipos (`object`, `int64`, etc.)  
* Filas no-nulas por columna ‚Üí detectamos valores faltantes (`pais`, `empresa`)  
* Memoria ocupada

In [5]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 325 entries, 0 to 324
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   nombre                   325 non-null    object
 1   apellido                 325 non-null    object
 2   edad                     325 non-null    int64 
 3   pais                     324 non-null    object
 4   educacion_universitaria  325 non-null    object
 5   nombre_de_la_empresa     317 non-null    object
 6   cargo                    325 non-null    object
 7   anos_en_la_empresa       325 non-null    int64 
 8   sueldo_anual             325 non-null    object
 9   bono_anual               325 non-null    object
dtypes: int64(2), object(8)
memory usage: 25.5+ KB


### 2.2 Estad√≠sticas descriptivas r√°pidas


### üìä Estad√≠sticas descriptivas
`df.describe()` genera medidas (count, mean, std‚Ä¶) solo para columnas
num√©ricas. Aqu√≠ vemos *edad* y *a√±os en la empresa*.  
Esto ayuda a detectar outliers y entender la dispersi√≥n.

In [6]:
df_salarios.describe()

Unnamed: 0,edad,anos_en_la_empresa
count,325.0,325.0
mean,40.889231,6.353846
std,11.582769,3.997803
min,22.0,0.0
25%,30.0,3.0
50%,41.0,6.0
75%,51.0,10.0
max,60.0,13.0


---
## 3 ¬∑ Limpiar columnas monetarias
Las columnas `sueldo_anual` y `bono_anual` tienen s√≠mbolos de moneda. Eliminamos `$` y `‚Ç¨` y convertimos a `float`.


In [7]:
df_salarios.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual,bono_anual
0,Jos√©,L√≥pez,36,Chile,S√≠,Mercado Libre,Python Developer,2,$71841,‚Ç¨4981
1,Fernanda,Vargas,39,Chile,S√≠,Amazon,AI Software Engineer,2,$142115,‚Ç¨1252
2,Fernanda,Ram√≠rez,30,Colombia,No,Facebook,Machine Learning Engineer,2,$92278,‚Ç¨5262
3,Jos√©,G√≥mez,35,Chile,S√≠,Mercado Libre,Python Developer,12,$97130,‚Ç¨3671
4,Ana,P√©rez,32,Panam√°,No,Amazon,Project Manager,2,$61413,‚Ç¨10190


Revisar las columnas `sueldo_anual` y `bono_anual` pues tienen los simbolos de moneda

### üí≤ Columnas monetarias originales
Previsualizamos `sueldo_anual` y `bono_anual` antes de limpiarlas.
Observa que contienen s√≠mbolos (`$`, `‚Ç¨`) 

In [8]:
# escribe tu codigo aqui
df_salarios[['sueldo_anual', 'bono_anual']]

Unnamed: 0,sueldo_anual,bono_anual
0,$71841,‚Ç¨4981
1,$142115,‚Ç¨1252
2,$92278,‚Ç¨5262
3,$97130,‚Ç¨3671
4,$61413,‚Ç¨10190
...,...,...
320,$97114,‚Ç¨1684
321,$104541,‚Ç¨3128
322,$86042,‚Ç¨8746
323,$96078,‚Ç¨11419


Renombrar las columnas usando `.rename`

```python
columns={
        "sueldo_anual": "sueldo_anual_dolares",
        "bono_anual": "bono_anual_euros"
    }
```

In [9]:
# escribe tu codigo aqui
df_salarios = df_salarios.rename(
    columns={
        "sueldo_anual": "sueldo_anual_dolares",
        "bono_anual": "bono_anual_euros"
    }
)

Revisar si las columnas cambiaron de nombre con `.columns`

In [10]:
# escribe tu codigo aqui
df_salarios.columns

Index(['nombre', 'apellido', 'edad', 'pais', 'educacion_universitaria',
       'nombre_de_la_empresa', 'cargo', 'anos_en_la_empresa',
       'sueldo_anual_dolares', 'bono_anual_euros'],
      dtype='object')

Reemplazar el simbolo de d√≥lar `$` por  `''` utilizando el m√©todo `.replace()` 

### ‚úÇÔ∏è Eliminar s√≠mbolo de d√≥lar
`str.replace('$','')` quita el car√°cter pero **deja las comas**.
A√∫n es tipo `object` (string); falta:
1. eliminar comas,
2. convertir a `float`.

In [11]:
# escribe tu codigo aqui
df_salarios['sueldo_anual_dolares'] = (df_salarios['sueldo_anual_dolares'].str.replace('$', ''))

Cambiar el tipo de dato de sueldo_anual_dolares con `.astype(float)`

> **Nota:** se produce un `ValueError` porque todav√≠a hay **celdas vac√≠as**
  (`''`) o valores con comas que impiden la conversi√≥n directa a `float`.

In [12]:

df_salarios['sueldo_anual_dolares'] = df_salarios['sueldo_anual_dolares'].astype(float)

ValueError: could not convert string to float: ''

### Funcion√≥? o Cu√°l es el error?

##### Tu respuesta aqui

reemplazar las celdas vacias `''`

### üõ†Ô∏è Reemplazar strings vac√≠os por `NaN`
Usamos `.replace('', np.nan)` para que pandas los reconozca como faltantes
y permita la conversi√≥n num√©rica en el siguiente paso.

In [13]:
# escribe tu codigo aqui
df_salarios['sueldo_anual_dolares'] = (df_salarios['sueldo_anual_dolares'].replace('', np.nan))

Cambiar el tipo de datos con `.astype(float)`

### üîÑ Convertir a num√©rico
Ahora que no hay s√≠mbolos ni strings vac√≠os, `astype(float)` funciona.
El resultado es una columna `float64` lista para c√°lculos.

In [14]:
# escribe tu codigo aqui
df_salarios['sueldo_anual_dolares'] = df_salarios['sueldo_anual_dolares'].astype(float)

Revisar que valores de `sueldo_anual_dolares` tienen el valor `np.nan`

### üìå Ver cu√°ntos salarios quedaron como `NaN`
Esto nos indica cu√°ntos registros tendr√°n que imputarse
o eliminarse en el siguiente bloque de limpieza.

In [15]:
# escribe tu codigo aqui
df_salarios['sueldo_anual_dolares'].isna().sum()

np.int64(7)

### üîç Inspeccionar filas con salario faltante
Listamos las 7 filas donde `sueldo_anual_dolares` es `NaN`.
Podremos decidir si:
* imputar con la mediana por cargo/pa√≠s,  
* o eliminar si los valores son cr√≠ticos.

In [16]:
df_salarios[df_salarios['sueldo_anual_dolares'].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
302,Mar√≠a,R√≠os,27,Argentina,S√≠,Globant,Python Developer,4,,‚Ç¨11287
305,Paula,D√≠az,53,Costa Rica,No,,Machine Learning Engineer,10,,‚Ç¨9874
306,Luis,P√©rez,27,Chile,No,Facebook,AI Software Engineer,10,,‚Ç¨10379
307,Andrea,Rodr√≠guez,36,Panam√°,S√≠,Facebook,Project Manager,1,,‚Ç¨3878
308,Juan,Morales,49,Costa Rica,No,Amazon,Software Engineer,2,,‚Ç¨12223
309,Camila,Torres,45,M√©xico,No,Facebook,Data Engineer,3,,‚Ç¨2816
310,Diego,D√≠az,41,M√©xico,No,Google,Data Analyst,0,,‚Ç¨5934


Ahora el mismo proceso con el s√≠mbolo de euros `‚Ç¨`

In [17]:
df_salarios['bono_anual_euros'] = (df_salarios['bono_anual_euros'].str.replace('‚Ç¨', ''))

In [18]:
df_salarios['bono_anual_euros'] = (df_salarios['bono_anual_euros'].astype(float))

In [19]:
df_salarios[df_salarios['bono_anual_euros'].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros


In [20]:
df_salarios[['sueldo_anual_dolares', 'bono_anual_euros']].head()

Unnamed: 0,sueldo_anual_dolares,bono_anual_euros
0,71841.0,4981.0
1,142115.0,1252.0
2,92278.0,5262.0
3,97130.0,3671.0
4,61413.0,10190.0


---
## 4 ¬∑ Detecci√≥n y manejo de valores nulos
### 4.1 Contar nulos por columna


In [21]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       1
educacion_universitaria    0
nombre_de_la_empresa       8
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       7
bono_anual_euros           0
dtype: int64

> **Estrategias comunes:**
- **Eliminar** filas/columnas con muchos nulos (`dropna`).
- **Imputar** con media/mediana/moda (`fillna`).
- **Revisar** si los nulos tienen significado en tu an√°lisis.


Revisemos el caso de la columna `['pais']`

In [22]:
df_salarios[df_salarios["pais"].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
300,Ana,P√©rez,51,,No,Oracle,Project Manager,2,67999.0,12035.0


In [23]:
df_salarios = df_salarios.dropna(subset=["pais"])

In [24]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       0
educacion_universitaria    0
nombre_de_la_empresa       8
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       7
bono_anual_euros           0
dtype: int64

Ahora revisemos el caso de la columna `["nombre_de_la_empresa"]`

In [25]:
df_salarios[df_salarios["nombre_de_la_empresa"].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
303,Valentina,R√≠os,50,Chile,No,,Python Developer,8,50138.0,3937.0
304,Pedro,D√≠az,59,Colombia,S√≠,,AI Software Engineer,9,133052.0,5600.0
305,Paula,D√≠az,53,Costa Rica,No,,Machine Learning Engineer,10,,9874.0
314,Luis,Ram√≠rez,60,Argentina,No,,Data Scientist,4,72011.0,6723.0
315,Jos√©,Mart√≠nez,35,Chile,S√≠,,Data Engineer,3,97114.0,1684.0
316,Carlos,Flores,55,Uruguay,S√≠,,Machine Learning Engineer,1,104541.0,3128.0
317,Luc√≠a,Torres,36,Costa Rica,No,,Software Engineer,0,86042.0,8746.0
318,Luc√≠a,Gonz√°lez,56,Uruguay,No,,Data Scientist,7,96078.0,11419.0


No es necesario eliminar esos datos, pues podemos clasificarlos como `"Empresa Desconocida"`

In [26]:
df_salarios["nombre_de_la_empresa"] = (df_salarios["nombre_de_la_empresa"].fillna("Empresa Desconocida"))


In [27]:
df_salarios[df_salarios["nombre_de_la_empresa"].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros


In [28]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       0
educacion_universitaria    0
nombre_de_la_empresa       0
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       7
bono_anual_euros           0
dtype: int64

Revisemos el caso de `["sueldo_anual_dolares"]`

In [29]:
df_salarios[df_salarios["sueldo_anual_dolares"].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
302,Mar√≠a,R√≠os,27,Argentina,S√≠,Globant,Python Developer,4,,11287.0
305,Paula,D√≠az,53,Costa Rica,No,Empresa Desconocida,Machine Learning Engineer,10,,9874.0
306,Luis,P√©rez,27,Chile,No,Facebook,AI Software Engineer,10,,10379.0
307,Andrea,Rodr√≠guez,36,Panam√°,S√≠,Facebook,Project Manager,1,,3878.0
308,Juan,Morales,49,Costa Rica,No,Amazon,Software Engineer,2,,12223.0
309,Camila,Torres,45,M√©xico,No,Facebook,Data Engineer,3,,2816.0
310,Diego,D√≠az,41,M√©xico,No,Google,Data Analyst,0,,5934.0


Al no existir el registro de sueldos, la decision que tomamos fue eliminar esas filas con `dropna()`

In [30]:
df_salarios = df_salarios.dropna(subset=["sueldo_anual_dolares"])

In [31]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       0
educacion_universitaria    0
nombre_de_la_empresa       0
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       0
bono_anual_euros           0
dtype: int64

Ahora no tenemos valores nulos

---
## 5 ¬∑ Detecci√≥n y manejo de duplicados
Buscamos registros exactos repetidos.


In [32]:
duplicados = df_salarios.duplicated()
print(f'Duplicados encontrados: {duplicados.sum()}')

Duplicados encontrados: 10


In [33]:
df_salarios = df_salarios.drop_duplicates()

In [34]:
duplicados = df_salarios.duplicated()
print(f'Duplicados encontrados: {duplicados.sum()}')

Duplicados encontrados: 0


In [35]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
Index: 307 entries, 0 to 318
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nombre                   307 non-null    object 
 1   apellido                 307 non-null    object 
 2   edad                     307 non-null    int64  
 3   pais                     307 non-null    object 
 4   educacion_universitaria  307 non-null    object 
 5   nombre_de_la_empresa     307 non-null    object 
 6   cargo                    307 non-null    object 
 7   anos_en_la_empresa       307 non-null    int64  
 8   sueldo_anual_dolares     307 non-null    float64
 9   bono_anual_euros         307 non-null    float64
dtypes: float64(2), int64(2), object(6)
memory usage: 26.4+ KB


### üî¢ Reiniciar √≠ndices
`reset_index(drop=True)` crea un nuevo √≠ndice consecutivo (0 ‚Üí n-1) y descarta el √≠ndice anterior.  
√ötil despu√©s de eliminar filas o reordenar el DataFrame para evitar huecos o duplicados en la numeraci√≥n.

In [36]:
df_salarios = df_salarios.reset_index(drop=True)

In [37]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307 entries, 0 to 306
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nombre                   307 non-null    object 
 1   apellido                 307 non-null    object 
 2   edad                     307 non-null    int64  
 3   pais                     307 non-null    object 
 4   educacion_universitaria  307 non-null    object 
 5   nombre_de_la_empresa     307 non-null    object 
 6   cargo                    307 non-null    object 
 7   anos_en_la_empresa       307 non-null    int64  
 8   sueldo_anual_dolares     307 non-null    float64
 9   bono_anual_euros         307 non-null    float64
dtypes: float64(2), int64(2), object(6)
memory usage: 24.1+ KB


### üí± Conversi√≥n de Euros a D√≥lares  
Definimos una **tasa de cambio fija** `TASA_EUR_USD = 1.10` (1 ‚Ç¨ ‚Üí 1.10 US$)  
y creamos la columna `bono_anual_dolares` multiplicando cada valor en  
`bono_anual_euros` por esa tasa. Esta operaci√≥n es vectorizada: se aplica  
a toda la columna sin necesidad de bucles y deja ambos montos disponibles  
para comparaciones o visualizaciones futuras.

In [38]:
df_salarios.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
0,Jos√©,L√≥pez,36,Chile,S√≠,Mercado Libre,Python Developer,2,71841.0,4981.0
1,Fernanda,Vargas,39,Chile,S√≠,Amazon,AI Software Engineer,2,142115.0,1252.0
2,Fernanda,Ram√≠rez,30,Colombia,No,Facebook,Machine Learning Engineer,2,92278.0,5262.0
3,Jos√©,G√≥mez,35,Chile,S√≠,Mercado Libre,Python Developer,12,97130.0,3671.0
4,Ana,P√©rez,32,Panam√°,No,Amazon,Project Manager,2,61413.0,10190.0


In [39]:
# 1 ‚Ç¨ ‚âà 1.10 USD
TASA_EUR_USD = 1.10

In [40]:
df_salarios["bono_anual_dolares"] = (
    df_salarios["bono_anual_euros"] * TASA_EUR_USD
)

In [41]:
df_salarios[["bono_anual_euros", "bono_anual_dolares"]]

Unnamed: 0,bono_anual_euros,bono_anual_dolares
0,4981.0,5479.1
1,1252.0,1377.2
2,5262.0,5788.2
3,3671.0,4038.1
4,10190.0,11209.0
...,...,...
302,6723.0,7395.3
303,1684.0,1852.4
304,3128.0,3440.8
305,8746.0,9620.6


### üìè Ajuste de precisi√≥n  
Redondeamos `bono_anual_dolares` a **una cifra decimal** (`round(1)`) para  
homogeneizar el formato de los valores monetarios y evitar ‚Äúruido‚Äù de  
centavos insignificantes al presentar o agrupar los datos.

In [42]:
df_salarios["bono_anual_dolares"] = df_salarios["bono_anual_dolares"].round(1)

In [43]:
df_salarios[["bono_anual_euros", "bono_anual_dolares"]]

Unnamed: 0,bono_anual_euros,bono_anual_dolares
0,4981.0,5479.1
1,1252.0,1377.2
2,5262.0,5788.2
3,3671.0,4038.1
4,10190.0,11209.0
...,...,...
302,6723.0,7395.3
303,1684.0,1852.4
304,3128.0,3440.8
305,8746.0,9620.6


In [44]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307 entries, 0 to 306
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nombre                   307 non-null    object 
 1   apellido                 307 non-null    object 
 2   edad                     307 non-null    int64  
 3   pais                     307 non-null    object 
 4   educacion_universitaria  307 non-null    object 
 5   nombre_de_la_empresa     307 non-null    object 
 6   cargo                    307 non-null    object 
 7   anos_en_la_empresa       307 non-null    int64  
 8   sueldo_anual_dolares     307 non-null    float64
 9   bono_anual_euros         307 non-null    float64
 10  bono_anual_dolares       307 non-null    float64
dtypes: float64(3), int64(2), object(6)
memory usage: 26.5+ KB


## 6 ¬∑ Cargar el dataframe de pa√≠ses


In [45]:
#definir un path o ruta con Path
path_paises = DATA_RAW_DIR / "paises.csv"
path_paises = str(path_paises)

print(f"Ruta del archivo paises: {path_paises}")
print(f"existe archivo paises: {Path(path_paises).exists()}")

Ruta del archivo paises: /Users/jssdev/Dev/Projects/Pydata/pydatapanama-cursos/cursos/analisis_datos/data/raw/paises.csv
existe archivo paises: True


In [46]:
df_paises = pd.read_csv(filepath_or_buffer=path_paises, sep=',', encoding='utf-8')

In [47]:
df_paises.head()

Unnamed: 0,pais,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
0,Argentina,Buenos Aires,45376763,"$641,000,000,000","$14,120"
1,Brasil,Brasilia,214326223,"$2,000,000,000,000","$9,334"
2,Chile,Santiago,19116209,"$317,000,000,000","$16,580"
3,Colombia,Bogot√°,51874024,"$343,000,000,000","$6,611"
4,M√©xico,Ciudad de M√©xico,126014024,"$1,410,000,000,000","$11,190"


In [48]:
df_paises['pais'].unique()

array(['Argentina', 'Brasil', 'Chile', 'Colombia', 'M√©xico', 'Per√∫',
       'Uruguay', 'Panam√°', 'Ecuador', 'Bolivia'], dtype=object)

In [49]:
df_paises['pais'].nunique()

10

In [50]:
df_salarios['pais'].unique()

array(['Chile', 'Colombia', 'Panam√°', 'Costa Rica', 'M√©xico', 'Uruguay',
       'Argentina', 'Per√∫'], dtype=object)

In [51]:
df_salarios['pais'].nunique()

8

In [52]:
paises_en_df_paises = set(df_paises["pais"])
paises_en_df_paises

{'Argentina',
 'Bolivia',
 'Brasil',
 'Chile',
 'Colombia',
 'Ecuador',
 'M√©xico',
 'Panam√°',
 'Per√∫',
 'Uruguay'}

In [53]:
paises_en_df_salarios = set(df_salarios["pais"])
paises_en_df_salarios

{'Argentina',
 'Chile',
 'Colombia',
 'Costa Rica',
 'M√©xico',
 'Panam√°',
 'Per√∫',
 'Uruguay'}

### üîç Identificar discrepancias entre DataFrames

1. **`paises_faltantes_en_df_paises`**  
   Conjunto de pa√≠ses que **est√°n en `df_paises` pero no aparecen** en `df_salarios`.

2. **`paises_faltantes_en_df_salarios`**  
   Conjunto inverso: pa√≠ses presentes en `df_salarios`, ausentes en `df_paises`.

3. **`paises_faltantes`**  
   Uni√≥n (`|`) de ambos conjuntos ‚Üí lista global de **todos los pa√≠ses que no coinciden** entre los dos DataFrames.  
   √ötil para decidir si imputar, descartar o investigar la fuente de datos.

In [54]:
paises_faltantes_en_df_paises = paises_en_df_paises - paises_en_df_salarios
paises_faltantes_en_df_paises

{'Bolivia', 'Brasil', 'Ecuador'}

In [55]:
paises_faltantes_en_df_salarios =  paises_en_df_salarios - paises_en_df_paises
paises_faltantes_en_df_salarios

{'Costa Rica'}

In [56]:
paises_faltantes = paises_faltantes_en_df_paises | paises_faltantes_en_df_salarios
paises_faltantes

{'Bolivia', 'Brasil', 'Costa Rica', 'Ecuador'}

In [57]:
df_paises[df_paises['pais'].isin(paises_faltantes)]

Unnamed: 0,pais,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
1,Brasil,Brasilia,214326223,"$2,000,000,000,000","$9,334"
8,Ecuador,Quito,18001000,"$118,000,000,000","$6,556"
9,Bolivia,La Paz,12456000,"$44,000,000,000","$3,530"


### üóëÔ∏è Eliminar registros espec√≠ficos  
Usamos `drop(index=[1, 8, 9])` para remover las filas cuyo √≠ndice es 1, 8 y 9  
(Brasil, Ecuador y Bolivia en este caso). Esto excluye esos pa√≠ses del  
DataFrame `df_paises` antes de realizar uniones o an√°lisis posteriores.

In [58]:
df_paises = df_paises.drop(index=[1, 8, 9])

In [59]:
df_paises.reset_index(drop=True, inplace=True)

In [60]:
df_paises

Unnamed: 0,pais,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
0,Argentina,Buenos Aires,45376763,"$641,000,000,000","$14,120"
1,Chile,Santiago,19116209,"$317,000,000,000","$16,580"
2,Colombia,Bogot√°,51874024,"$343,000,000,000","$6,611"
3,M√©xico,Ciudad de M√©xico,126014024,"$1,410,000,000,000","$11,190"
4,Per√∫,Lima,33925854,"$268,000,000,000","$7,900"
5,Uruguay,Montevideo,3518552,"$71,000,000,000","$20,300"
6,Panam√°,Ciudad de Panam√°,4468000,"$76,000,000,000","$16,995"


### üí≤ Limpieza y conversi√≥n de columnas monetarias  
Seleccionamos las columnas `PIB` e `ingreso_per_capita` y:

1. **`replace({'\\$': '', ',': ''}, regex=True)`**  
   - Elimina el s√≠mbolo de d√≥lar (`$`) y las comas de miles (`,`).  
   - `regex=True` permite usar patrones de expresi√≥n regular.

2. **`astype(float)`**  
   - Convierte las cadenas ya limpias a valores num√©ricos (`float64`).

Resultado: ambas columnas quedan listas para c√°lculos y comparaciones
estad√≠sticas sin s√≠mbolos ni separadores.

In [61]:
df_paises[["PIB", "ingreso_per_capita"]] = (df_paises[["PIB", "ingreso_per_capita"]].replace({'\\$': '', ',': ''}, regex=True).astype(float))

In [62]:
df_paises.head()

Unnamed: 0,pais,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
0,Argentina,Buenos Aires,45376763,641000000000.0,14120.0
1,Chile,Santiago,19116209,317000000000.0,16580.0
2,Colombia,Bogot√°,51874024,343000000000.0,6611.0
3,M√©xico,Ciudad de M√©xico,126014024,1410000000000.0,11190.0
4,Per√∫,Lima,33925854,268000000000.0,7900.0


In [63]:
df_paises.isnull().sum()

pais                      0
capital                   0
cantidad_de_habitantes    0
PIB                       0
ingreso_per_capita        0
dtype: int64

---
## 7 ¬∑ Unir datasets (`merge`)
Unimos `df_salarios` con `df_paises` por la columna `pais` para enriquecer la informaci√≥n.


In [64]:
df_salarios_pais = pd.merge(df_salarios, df_paises, on='pais', how='left').reset_index(drop=True)


In [65]:
df_salarios_pais.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
0,Jos√©,L√≥pez,36,Chile,S√≠,Mercado Libre,Python Developer,2,71841.0,4981.0,5479.1,Santiago,19116209.0,317000000000.0,16580.0
1,Fernanda,Vargas,39,Chile,S√≠,Amazon,AI Software Engineer,2,142115.0,1252.0,1377.2,Santiago,19116209.0,317000000000.0,16580.0
2,Fernanda,Ram√≠rez,30,Colombia,No,Facebook,Machine Learning Engineer,2,92278.0,5262.0,5788.2,Bogot√°,51874024.0,343000000000.0,6611.0
3,Jos√©,G√≥mez,35,Chile,S√≠,Mercado Libre,Python Developer,12,97130.0,3671.0,4038.1,Santiago,19116209.0,317000000000.0,16580.0
4,Ana,P√©rez,32,Panam√°,No,Amazon,Project Manager,2,61413.0,10190.0,11209.0,Ciudad de Panam√°,4468000.0,76000000000.0,16995.0


---
## 8 ¬∑ Crear columnas derivadas


### üí∞ M√©trica de compensaci√≥n total  
Creamos `compensacion_total` sumando el salario anual (`sueldo_anual_dolares`)  
y el bono anual convertido a d√≥lares (`bono_anual_dolares`).  
Esta columna refleja cu√°nto percibe realmente cada empleado en un a√±o,  
facilitando an√°lisis comparativos por pa√≠s, cargo o empresa.

In [66]:
df_salarios_pais['compensacion_total'] = df_salarios_pais['sueldo_anual_dolares'] + df_salarios_pais['bono_anual_dolares']


In [67]:
df_salarios_pais.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita,compensacion_total
0,Jos√©,L√≥pez,36,Chile,S√≠,Mercado Libre,Python Developer,2,71841.0,4981.0,5479.1,Santiago,19116209.0,317000000000.0,16580.0,77320.1
1,Fernanda,Vargas,39,Chile,S√≠,Amazon,AI Software Engineer,2,142115.0,1252.0,1377.2,Santiago,19116209.0,317000000000.0,16580.0,143492.2
2,Fernanda,Ram√≠rez,30,Colombia,No,Facebook,Machine Learning Engineer,2,92278.0,5262.0,5788.2,Bogot√°,51874024.0,343000000000.0,6611.0,98066.2
3,Jos√©,G√≥mez,35,Chile,S√≠,Mercado Libre,Python Developer,12,97130.0,3671.0,4038.1,Santiago,19116209.0,317000000000.0,16580.0,101168.1
4,Ana,P√©rez,32,Panam√°,No,Amazon,Project Manager,2,61413.0,10190.0,11209.0,Ciudad de Panam√°,4468000.0,76000000000.0,16995.0,72622.0


### üèÜ Clasificaci√≥n de senioridad  
Creamos la columna `senioridad` con `np.where`:

* **Condici√≥n** ‚Üí `anos_en_la_empresa > 5`  
  - Si el empleado lleva **m√°s de 5 a√±os**, se le etiqueta como **"Senior"**.  
  - En caso contrario, se marca como **"Junior"**.

As√≠ obtenemos una variable categ√≥rica que nos ayudar√° a comparar
compensaciones y otros indicadores entre niveles de experiencia.

In [68]:
df_salarios_pais['senioridad'] = np.where(df_salarios_pais['anos_en_la_empresa'] > 5, 'Senior', 'Junior')


In [69]:
df_salarios_pais[['nombre', 'apellido', 'anos_en_la_empresa','compensacion_total', 'senioridad']].head(10)

Unnamed: 0,nombre,apellido,anos_en_la_empresa,compensacion_total,senioridad
0,Jos√©,L√≥pez,2,77320.1,Junior
1,Fernanda,Vargas,2,143492.2,Junior
2,Fernanda,Ram√≠rez,2,98066.2,Junior
3,Jos√©,G√≥mez,12,101168.1,Senior
4,Ana,P√©rez,2,72622.0,Junior
5,Andrea,Torres,8,91029.3,Senior
6,Andrea,Vargas,9,102338.1,Senior
7,Pedro,Herrera,1,164982.1,Junior
8,Juan,Torres,9,98870.5,Senior
9,Mar√≠a,Vargas,13,118492.4,Senior


### üîé Revisi√≥n de valores nulos por columna  
`df_salarios_pais.isna().sum()` muestra cu√°ntos `NaN` hay en cada columna  
tras el merge. Los resultados indican que los registros de **Costa Rica**  
a√∫n presentan nulos en `capital`, `PIB`, `cantidad_de_habitantes` e  
`ingreso_per_capita`. Conviene imputar o investigar estos campos antes de  
continuar con el an√°lisis para evitar sesgos o errores en c√°lculos agregados.

In [70]:
df_salarios_pais.isna().sum()

nombre                      0
apellido                    0
edad                        0
pais                        0
educacion_universitaria     0
nombre_de_la_empresa        0
cargo                       0
anos_en_la_empresa          0
sueldo_anual_dolares        0
bono_anual_euros            0
bono_anual_dolares          0
capital                    39
cantidad_de_habitantes     39
PIB                        39
ingreso_per_capita         39
compensacion_total          0
senioridad                  0
dtype: int64

In [71]:
df_salarios_pais[df_salarios_pais['pais'] == 'Costa Rica']

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita,compensacion_total,senioridad
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,84987.0,5493.0,6042.3,,,,,91029.3,Senior
16,Fernanda,R√≠os,23,Costa Rica,S√≠,Oracle,Data Engineer,10,97616.0,8345.0,9179.5,,,,,106795.5,Senior
21,Pedro,Ram√≠rez,54,Costa Rica,S√≠,Microsoft,Machine Learning Engineer,2,101737.0,9828.0,10810.8,,,,,112547.8,Junior
23,Pedro,Torres,22,Costa Rica,S√≠,Facebook,AI Software Engineer,6,115269.0,10657.0,11722.7,,,,,126991.7,Senior
32,Carlos,Herrera,53,Costa Rica,No,Rappi,Data Scientist,4,79861.0,7554.0,8309.4,,,,,88170.4,Junior
34,Fernanda,D√≠az,38,Costa Rica,No,Oracle,Project Manager,0,89704.0,7063.0,7769.3,,,,,97473.3,Junior
35,Diego,Gonz√°lez,40,Costa Rica,No,Globant,Machine Learning Engineer,12,104739.0,11879.0,13066.9,,,,,117805.9,Senior
41,Luc√≠a,L√≥pez,49,Costa Rica,S√≠,Meta,Data Scientist,13,61352.0,7054.0,7759.4,,,,,69111.4,Senior
45,Pedro,Vargas,28,Costa Rica,No,Facebook,Data Analyst,8,56598.0,3690.0,4059.0,,,,,60657.0,Senior
51,Fernanda,Torres,47,Costa Rica,S√≠,Google,Product Owner,7,87181.0,7291.0,8020.1,,,,,95201.1,Senior


### üîç Filtrar filas de Costa Rica  
Creamos `mask_cr` para identificar las filas donde `pais == "Costa Rica"` y,  
con `loc`, mostramos √∫nicamente esos registros. As√≠ podemos inspeccionar  
qu√© columnas siguen con `NaN` y decidir c√≥mo imputarlas o ajustarlas.

In [72]:
mask_cr = df_salarios_pais["pais"] == "Costa Rica"
df_salarios_pais.loc[mask_cr]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita,compensacion_total,senioridad
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,84987.0,5493.0,6042.3,,,,,91029.3,Senior
16,Fernanda,R√≠os,23,Costa Rica,S√≠,Oracle,Data Engineer,10,97616.0,8345.0,9179.5,,,,,106795.5,Senior
21,Pedro,Ram√≠rez,54,Costa Rica,S√≠,Microsoft,Machine Learning Engineer,2,101737.0,9828.0,10810.8,,,,,112547.8,Junior
23,Pedro,Torres,22,Costa Rica,S√≠,Facebook,AI Software Engineer,6,115269.0,10657.0,11722.7,,,,,126991.7,Senior
32,Carlos,Herrera,53,Costa Rica,No,Rappi,Data Scientist,4,79861.0,7554.0,8309.4,,,,,88170.4,Junior
34,Fernanda,D√≠az,38,Costa Rica,No,Oracle,Project Manager,0,89704.0,7063.0,7769.3,,,,,97473.3,Junior
35,Diego,Gonz√°lez,40,Costa Rica,No,Globant,Machine Learning Engineer,12,104739.0,11879.0,13066.9,,,,,117805.9,Senior
41,Luc√≠a,L√≥pez,49,Costa Rica,S√≠,Meta,Data Scientist,13,61352.0,7054.0,7759.4,,,,,69111.4,Senior
45,Pedro,Vargas,28,Costa Rica,No,Facebook,Data Analyst,8,56598.0,3690.0,4059.0,,,,,60657.0,Senior
51,Fernanda,Torres,47,Costa Rica,S√≠,Google,Product Owner,7,87181.0,7291.0,8020.1,,,,,95201.1,Senior


### üìù Diccionario con datos oficiales de Costa Rica  
Definimos `datos_cr` con los valores verificados para imputar en las filas  
de Costa Rica:

* **capital:** San Jos√©  
* **cantidad_de_habitantes:** 5 150 000  
* **PIB:** 86 500 000 000 USD  
* **ingreso_per_capita:** 14 319 USD

Estos n√∫meros reemplazar√°n los `NaN` correspondientes en el DataFrame.

In [73]:
datos_cr = {
    "capital": "San Jos√©",
    "cantidad_de_habitantes": 5150000,
    "PIB": 86500000000,
    "ingreso_per_capita": 14319
}

### üõ†Ô∏è Imputar valores faltantes para Costa Rica  
Recorremos `datos_cr` y, para cada columna:

1. **Ubicamos** √∫nicamente las filas de Costa Rica (`mask_cr`).  
2. **`fillna(valor)`** reemplaza solo los `NaN` con el dato oficial correspondiente.  
3. Asignamos el resultado de vuelta a la misma columna, dejando intactos los
   registros de otros pa√≠ses.

De este modo, Costa Rica queda completa sin alterar los valores ya correctos.

In [74]:
for col, valor in datos_cr.items():
    df_salarios_pais.loc[mask_cr, col] = (df_salarios_pais.loc[mask_cr, col].fillna(valor))

In [75]:
df_salarios_pais.loc[mask_cr]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita,compensacion_total,senioridad
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,84987.0,5493.0,6042.3,San Jos√©,5150000.0,86500000000.0,14319.0,91029.3,Senior
16,Fernanda,R√≠os,23,Costa Rica,S√≠,Oracle,Data Engineer,10,97616.0,8345.0,9179.5,San Jos√©,5150000.0,86500000000.0,14319.0,106795.5,Senior
21,Pedro,Ram√≠rez,54,Costa Rica,S√≠,Microsoft,Machine Learning Engineer,2,101737.0,9828.0,10810.8,San Jos√©,5150000.0,86500000000.0,14319.0,112547.8,Junior
23,Pedro,Torres,22,Costa Rica,S√≠,Facebook,AI Software Engineer,6,115269.0,10657.0,11722.7,San Jos√©,5150000.0,86500000000.0,14319.0,126991.7,Senior
32,Carlos,Herrera,53,Costa Rica,No,Rappi,Data Scientist,4,79861.0,7554.0,8309.4,San Jos√©,5150000.0,86500000000.0,14319.0,88170.4,Junior
34,Fernanda,D√≠az,38,Costa Rica,No,Oracle,Project Manager,0,89704.0,7063.0,7769.3,San Jos√©,5150000.0,86500000000.0,14319.0,97473.3,Junior
35,Diego,Gonz√°lez,40,Costa Rica,No,Globant,Machine Learning Engineer,12,104739.0,11879.0,13066.9,San Jos√©,5150000.0,86500000000.0,14319.0,117805.9,Senior
41,Luc√≠a,L√≥pez,49,Costa Rica,S√≠,Meta,Data Scientist,13,61352.0,7054.0,7759.4,San Jos√©,5150000.0,86500000000.0,14319.0,69111.4,Senior
45,Pedro,Vargas,28,Costa Rica,No,Facebook,Data Analyst,8,56598.0,3690.0,4059.0,San Jos√©,5150000.0,86500000000.0,14319.0,60657.0,Senior
51,Fernanda,Torres,47,Costa Rica,S√≠,Google,Product Owner,7,87181.0,7291.0,8020.1,San Jos√©,5150000.0,86500000000.0,14319.0,95201.1,Senior


### ‚úÖ Verificaci√≥n final de nulos  
Ejecutamos `df_salarios_pais.isnull().sum()` para confirmar que **todas las  
columnas ahora muestran 0 valores faltantes**. Nuestro DataFrame est√° listo  
para pasar al An√°lisis Exploratorio de Datos sin riesgos de errores por `NaN`.

In [76]:
df_salarios_pais.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       0
educacion_universitaria    0
nombre_de_la_empresa       0
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       0
bono_anual_euros           0
bono_anual_dolares         0
capital                    0
cantidad_de_habitantes     0
PIB                        0
ingreso_per_capita         0
compensacion_total         0
senioridad                 0
dtype: int64

In [77]:
df_salarios_pais.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307 entries, 0 to 306
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nombre                   307 non-null    object 
 1   apellido                 307 non-null    object 
 2   edad                     307 non-null    int64  
 3   pais                     307 non-null    object 
 4   educacion_universitaria  307 non-null    object 
 5   nombre_de_la_empresa     307 non-null    object 
 6   cargo                    307 non-null    object 
 7   anos_en_la_empresa       307 non-null    int64  
 8   sueldo_anual_dolares     307 non-null    float64
 9   bono_anual_euros         307 non-null    float64
 10  bono_anual_dolares       307 non-null    float64
 11  capital                  307 non-null    object 
 12  cantidad_de_habitantes   307 non-null    float64
 13  PIB                      307 non-null    float64
 14  ingreso_per_capita       3

---
## 9 ¬∑ Exportar dataset limpio


In [78]:
from cursos.analisis_datos.utils.paths import DATA_PROCESSED_DIR

In [79]:
salarios_pais_path = DATA_PROCESSED_DIR / "salarios_pais.csv"
salarios_pais_path = str(salarios_pais_path)

print(f"Ruta del archivo salarios_paises: {salarios_pais_path}")
print(f"existe archivo salarios_pais: {Path(salarios_pais_path).exists()}")

Ruta del archivo salarios_paises: /Users/jssdev/Dev/Projects/Pydata/pydatapanama-cursos/cursos/analisis_datos/data/processed/salarios_pais.csv
existe archivo salarios_pais: False


### üíæ Exportar dataset limpio  
`to_csv(..., index=False, sep=',', encoding='utf-8')` guarda `df_salarios_pais` como un CSV en la ruta definida por `salarios_pais_path`, sin incluir la columna de √≠ndice y usando codificaci√≥n UTF-8.  
La l√≠nea `print()` confirma en pantalla la ubicaci√≥n del archivo generado, facilitando su localizaci√≥n para futuros an√°lisis o compartici√≥n.

In [80]:
df_salarios_pais.to_csv(path_or_buf=salarios_pais_path, index=False, sep=',', encoding='utf-8')


In [81]:
print(f' Dataset limpio exportado a {salarios_pais_path}')

 Dataset limpio exportado a /Users/jssdev/Dev/Projects/Pydata/pydatapanama-cursos/cursos/analisis_datos/data/processed/salarios_pais.csv


In [82]:
print(f"existe archivo salarios_pais: {Path(salarios_pais_path).exists()}")

existe archivo salarios_pais: True


---
## 10 ¬∑ Resumen 
En esta pr√°ctica aprendiste a:
- Limpiar columnas con s√≠mbolos.
- Detectar/llenar nulos y eliminar duplicados.
- Realizar un **merge** y enriquecer tu informaci√≥n.
- Crear m√©tricas derivadas y exportar datos limpios.

