# 🧩 **Pair Programming: Unión y Limpieza de Datos** 🧩

## 📊 **Ejercicios de Unión de Datos** 📊

Para realizar este pair programming, deberéis usar los conjuntos de datos `world-data-2023-part1.csv` y `world-data-2023-part2.csv`.

### 🌍 **Columnas del Dataset** 🌍
- **GDP:** Producto Interno Bruto, el valor total de bienes y servicios producidos en el país.
- **Gross primary education enrollment:** Tasa bruta de matriculación en educación primaria.
- **Gross tertiary education enrollment:** Tasa bruta de matriculación en educación terciaria.
- **Infant mortality:** Número de muertes por cada 1,000 nacidos vivos antes de cumplir un año de edad.
- **Largest city:** Nombre de la ciudad más grande del país.
- **Life expectancy:** Número promedio de años que se espera que viva un recién nacido.
- **Maternal mortality ratio:** Número de muertes maternas por cada 100,000 nacidos vivos.
- **Minimum wage:** Nivel de salario mínimo en moneda local.
- **Official language:** Idioma(s) oficial(es) hablado(s) en el país.
- **Out of pocket health expenditure:** Porcentaje del gasto total en salud pagado directamente por individuos.
- **Physicians per thousand:** Número de médicos por cada mil personas.
- **Population:** Población total del país.
- **Population labor force participation:** Porcentaje de la población que forma parte de la fuerza laboral.
- **Tax revenue:** Ingresos fiscales como porcentaje del PIB.
- **Total tax rate:** Carga fiscal total como porcentaje de las ganancias comerciales.
- **Unemployment rate:** Porcentaje de la fuerza laboral que está desempleada.
- **Urban population:** Porcentaje de la población que vive en áreas urbanas.
- **Coordinates:** Coordenadas de latitud y longitud de la ubicación del país.
- **Country:** Nombre del país.

### 🚀 **Tareas a Realizar** 🚀

1. **Explora y carga** ambos conjuntos de datos en pandas DataFrames.
2. **Identifica** las columnas comunes entre los dos conjuntos de datos.
3. **Une los datos** utilizando el método de unión de Pandas que consideres más adecuado.
4. **Explica** por qué elegiste ese método de unión y describe los pasos anteriores.

---


In [72]:
# Importamos la biblioteca pandas y le damos el alias 'pd'
# Pandas nos ayuda a trabajar con datos en forma de tablas, como hojas de cálculo
import pandas as pd
# Importamos la biblioteca NumPy y le damos el alias 'np'
# NumPy es útil para trabajar con números y realizar cálculos matemáticos
import numpy as np

In [73]:
# Leemos el archivo 'world-data-2023-part1.csv' y lo cargamos en un DataFrame llamado 'df1'
# Un DataFrame es como una tabla de datos, similar a una hoja de cálculo
df1 = pd.read_csv("world-data-2023-part1.csv")
# Leemos el archivo 'world-data-2023-part2.csv' y lo cargamos en un DataFrame llamado 'df2'
# Esto nos permite trabajar con los datos del archivo en forma de tabla
df2 = pd.read_csv("world-data-2023-part2.csv")

In [74]:
# Muestra las primeras 5 filas del DataFrame 'df1'
# Esto nos permite ver una vista rápida de los primeros datos para entender su estructura y contenido
df1.head(5)

Unnamed: 0.1,Unnamed: 0,Country,Density\r\n(P/Km2),Abbreviation,Agricultural Land( %),Land Area(Km2),Armed Forces size,Birth Rate,Calling Code,Capital/Major City,Co2-Emissions,CPI,CPI Change (%),Currency-Code,Fertility Rate,Forested Area (%),Gasoline Price
0,0,Afghanistan,60,AF,58.10%,652230,323000.0,32.49,93.0,Kabul,8672,149.9,2.30%,AFN,4.47,2.10%,$0.70
1,1,Albania,105,AL,43.10%,28748,9000.0,11.78,355.0,Tirana,4536,119.05,1.40%,ALL,1.62,28.10%,$1.36
2,2,Algeria,18,DZ,17.40%,2381741,317000.0,24.28,213.0,Algiers,150006,151.36,2.00%,DZD,3.02,0.80%,$0.28
3,3,Andorra,164,AD,40.00%,468,,7.2,376.0,Andorra la Vella,469,,,EUR,1.27,34.00%,$1.51
4,4,Angola,26,AO,47.50%,1246700,117000.0,40.73,244.0,Luanda,34693,261.73,17.10%,AOA,5.52,46.30%,$0.97


In [75]:
# Muestra un resumen del DataFrame 'df2'
# Incluye información sobre el número de filas y columnas, nombres de las columnas, tipos de datos y cantidad de valores no nulos
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 20 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   Unnamed: 0                                 195 non-null    int64  
 1   GDP                                        193 non-null    object 
 2   Gross primary education enrollment (%)     188 non-null    object 
 3   Gross tertiary education enrollment (%)    183 non-null    object 
 4   Infant mortality                           189 non-null    float64
 5   Largest city                               189 non-null    object 
 6   Life expectancy                            187 non-null    float64
 7   Maternal mortality ratio                   181 non-null    float64
 8   Minimum wage                               150 non-null    object 
 9   Official language                          190 non-null    object 
 10  Out of pocket health expen

## **Columnas comunes**: "Unnamed" 

In [76]:
# Obtiene los nombres de las columnas del DataFrame 'df1' y los guarda en un conjunto llamado 'columns_df1'
# Un conjunto es una colección de elementos únicos, y esto nos ayudará a identificar las columnas sin duplicados
columns_df1 = set(df1.columns)

# Obtiene los nombres de las columnas del DataFrame 'df2' y los guarda en un conjunto llamado 'columns_df2'
# Esto nos permitirá comparar las columnas de 'df1' y 'df2' para ver cuáles son iguales o diferentes
columns_df2 = set(df2.columns)

In [77]:
# Imprime el conjunto de nombres de columnas de 'df1'
# Esto nos permite ver todos los nombres de las columnas en 'df1'
print(columns_df1)

# Imprime el conjunto de nombres de columnas de 'df2'
# Esto nos permite ver todos los nombres de las columnas en 'df2'
print(columns_df2)

{'Country', 'Agricultural Land( %)', 'Armed Forces size', 'Capital/Major City', 'Density\r\n(P/Km2)', 'Calling Code', 'CPI', 'CPI Change (%)', 'Birth Rate', 'Gasoline Price', 'Unnamed: 0', 'Land Area(Km2)', 'Co2-Emissions', 'Forested Area (%)', 'Currency-Code', 'Fertility Rate', 'Abbreviation'}
{'country', 'Infant mortality', 'Gross tertiary education enrollment (%)', 'Total tax rate', 'GDP', 'Population', 'Official language', 'Physicians per thousand', 'Urban_population', 'Minimum wage', 'coordinates', 'Population: Labor force participation (%)', 'Unnamed: 0', 'Life expectancy', 'Out of pocket health expenditure', 'Tax revenue (%)', 'Gross primary education enrollment (%)', 'Unemployment rate', 'Maternal mortality ratio', 'Largest city'}


In [78]:
# Muestra las primeras 5 filas del DataFrame 'df2'
# Esto nos permite ver una vista rápida de los primeros datos de 'df2' para entender su estructura y contenido
df2.head(5)


Unnamed: 0.1,Unnamed: 0,GDP,Gross primary education enrollment (%),Gross tertiary education enrollment (%),Infant mortality,Largest city,Life expectancy,Maternal mortality ratio,Minimum wage,Official language,Out of pocket health expenditure,Physicians per thousand,Population,Population: Labor force participation (%),Tax revenue (%),Total tax rate,Unemployment rate,Urban_population,country,coordinates
0,0,"$19,101,353,833",104.00%,9.70%,47.9,Kabul,64.5,638.0,$0.43,Pashto,78.40%,0.28,38041754,48.90%,9.30%,71.40%,11.12%,9797273,Afghanistan,"('33.93911 ', '67.709953')"
1,1,"$15,278,077,447",107.00%,55.00%,7.8,Tirana,78.5,15.0,$1.12,Albanian,56.90%,1.2,2854191,55.70%,18.60%,36.60%,12.33%,1747593,Albania,"('41.153332 ', '20.168331')"
2,2,"$169,988,236,398",109.90%,51.40%,20.1,Algiers,76.7,112.0,$0.95,Arabic,28.10%,1.72,43053054,41.20%,37.20%,66.10%,11.70%,31510100,Algeria,"('28.033886 ', '1.659626')"
3,3,"$3,154,057,987",106.40%,,2.7,Andorra la Vella,,,$6.63,Catalan,36.40%,3.33,77142,,,,,67873,Andorra,"('42.506285 ', '1.521801')"
4,4,"$94,635,415,870",113.50%,9.30%,51.6,Luanda,60.8,241.0,$0.71,Portuguese,33.40%,0.21,31825295,77.50%,9.20%,49.10%,6.89%,21061025,Angola,"('-11.202692 ', '17.873887')"


In [79]:
# Combina (merge) los DataFrames 'df1' y 'df2' en un nuevo DataFrame llamado 'mergeado'
# La combinación se hace usando la columna 'Unnamed: 0' que está presente en ambos DataFrames
# El parámetro 'how="inner"' asegura que solo se mantendrán las filas con valores coincidentes en 'Unnamed: 0' en ambos DataFrames
df3 = pd.merge(df1, df2, on='Unnamed: 0')

# Muestra las primeras 2 filas del DataFrame combinado 'mergeado'
# Esto nos permite verificar que la combinación de los DataFrames se ha realizado correctamente
df3.head(2)

Unnamed: 0.1,Unnamed: 0,Country,Density\r\n(P/Km2),Abbreviation,Agricultural Land( %),Land Area(Km2),Armed Forces size,Birth Rate,Calling Code,Capital/Major City,...,Out of pocket health expenditure,Physicians per thousand,Population,Population: Labor force participation (%),Tax revenue (%),Total tax rate,Unemployment rate,Urban_population,country,coordinates
0,0,Afghanistan,60,AF,58.10%,652230,323000,32.49,93.0,Kabul,...,78.40%,0.28,38041754,48.90%,9.30%,71.40%,11.12%,9797273,Afghanistan,"('33.93911 ', '67.709953')"
1,1,Albania,105,AL,43.10%,28748,9000,11.78,355.0,Tirana,...,56.90%,1.2,2854191,55.70%,18.60%,36.60%,12.33%,1747593,Albania,"('41.153332 ', '20.168331')"


In [80]:
# Convierte el DataFrame 'mergeado' a un archivo CSV llamado 'World-Data-Unidas.csv'
# Esto guarda los datos combinados en un nuevo archivo CSV para su uso posterior
convertir_csv = mergeado.to_csv("World-Data-Unidas.csv", index=False)

## 🧹 **Ejercicios de Limpieza** 🧹

1. **Eliminar columnas duplicadas:**
   - Elimina una de las columnas `country` después de la unión.

In [81]:
# Elimina la columna 'country' del DataFrame 'df3'
# 'inplace=True' significa que la eliminación se hará directamente en 'df3' y no se creará una copia
df3.drop(columns=['country'], inplace=True)

2. **Homogeneiza los nombres de las columnas:**
   - No deben tener espacios.
   - Deben estar en minúscula.
   - Elimina paréntesis y caracteres especiales como `%`, `()`, `\n`, `:`.

In [82]:
# Lista de símbolos a eliminar de los nombres de las columnas
quitar_simbolos = [' ', '\n', '(', ')', ':', '%']

# Convertir todos los nombres de las columnas a minúsculas
df3.columns = [column.lower() for column in df3.columns]

# Itera sobre cada símbolo en la lista de símbolos a eliminar
for simbolo in quitar_simbolos:
    # Elimina el símbolo actual de todos los nombres de las columnas
    df3.columns = [column.replace(simbolo, '') for column in df3.columns]

# Muestra las primeras filas del DataFrame para verificar que los nombres de las columnas se han modificado correctamente
df3.head(2)

Unnamed: 0,unnamed0,country,density\rp/km2,abbreviation,agriculturalland,landareakm2,armedforcessize,birthrate,callingcode,capital/majorcity,...,officiallanguage,outofpockethealthexpenditure,physiciansperthousand,population,populationlaborforceparticipation,taxrevenue,totaltaxrate,unemploymentrate,urban_population,coordinates
0,0,Afghanistan,60,AF,58.10%,652230,323000,32.49,93.0,Kabul,...,Pashto,78.40%,0.28,38041754,48.90%,9.30%,71.40%,11.12%,9797273,"('33.93911 ', '67.709953')"
1,1,Albania,105,AL,43.10%,28748,9000,11.78,355.0,Tirana,...,Albanian,56.90%,1.2,2854191,55.70%,18.60%,36.60%,12.33%,1747593,"('41.153332 ', '20.168331')"


3. **Dividir la columna `coordinates`:**
   - Crea dos columnas nuevas, `latitude` y `longitude`, a partir de `coordinates`.
   - Elimina la columna `coordinates`.

4. **Eliminar caracteres especiales de las columnas:**
   - Elimina `%` de las columnas: `unemployment_rate`, `total_tax_rate`, `tax_revenue`, `population_labor_force_participation`, `out_of_pocket_health_expenditure`, `gross_tertiary_education_enrollment`, `gross_primary_education_enrollment`, `forested_area`, `cpi_change`, `agricultural_land`.
   - Elimina `$` de las columnas: `gasoline_price`, `gdp`, `minimum_wage`.

5. **Guardar el DataFrame**:
   - Guarda el DataFrame limpio para usarlo en el pair programming de mañana.

---

## 🔎 **Ejercicios de Filtrado** 🔎

1. **Mortalidad infantil:**
   - Encuentra todos los países cuya mortalidad infantil esté entre 40 y 50 personas por kilómetro cuadrado.


## 🔎 **Ejercicios de Filtrado** 🔎

1. **Mortalidad infantil:**
   - Encuentra todos los países cuya mortalidad infantil esté entre 40 y 50 personas por kilómetro cuadrado.

2. **Tasa de natalidad y esperanza de vida:**
   - Encuentra los países cuyas tasas de natalidad son mayores o iguales a 20 y su esperanza de vida es mayor de 75 años.

3. **Nombres de ciudades:**
   - Encuentra las ciudades cuyos países contienen la palabra "la" en su nombre.

4. **Médicos por cada 1000 habitantes:**
   - Encuentra los países cuyos médicos por cada 1000 habitantes (`physicians_per_thousand`) sean mayores de 5.

5. **Tasa de fertilidad:**
   - Encuentra los países cuya tasa de fertilidad sea mayor a 6.

6. **Moneda y tasa de natalidad:**
   - Encuentra los países cuya moneda es el euro (EUR) y tienen una tasa de natalidad superior al promedio.

7. **Tasas de mortalidad infantil:**
   - Encuentra los países cuyas tasas de mortalidad infantil son superiores a 70.

---

¡Buena suerte con el pair programming y la limpieza de datos! 🚀📊🧹