### Pair Unión y Limpieza de Datos
#### Ejercicios Unión de Datos
Para realizar este pair programming deberéis usar el conjunto de datos de world-data-2023-part1.csv y el de world-data-2023-part2.csv.

Tienes a tu disposición dos conjuntos de datos, "world-data-2023-part1.csv" y "world-data-2023-part2.csv", que contienen información de una serie de indicadores y datos de distintos países. Tu tarea es explorar estos conjuntos de datos y determinar qué tienen en común en términos de columnas y datos.

Luego, debes crear un nuevo DataFrame que combine la información de ambos conjuntos de datos en un solo conjunto de datos. Para hacerlo, debes seleccionar el método de unión de Pandas que consideres más apropiado para esta situación y justificar por qué crees que ese método es el mejor en tu informe.

Asegúrate de realizar los siguientes pasos:

1. Explora y carga ambos conjuntos de datos en pandas DataFrames.

2. Identifica las columnas comunes entre los dos conjuntos de datos.

3. Utiliza el método de unión de Pandas que consideres más adecuado para combinar los datos de ambos años en un solo DataFrame.

4. Explica por qué elegiste ese método de unión y cómo se llevaron a cabo los pasos anteriores.

In [2]:
import pandas as pd
import numpy as np

In [6]:
#Ponemos index_col=0 para que no traiga la columna 'Unnamed'
df_world1 = pd.read_csv("world-data-2023_part1.csv", index_col=0)
df_world2 = pd.read_csv("world-data-2023_part2.csv", index_col=0)

In [7]:
df_world1.head(2)

Unnamed: 0,Country,Density\n(P/Km2),Abbreviation,Agricultural Land( %),Land Area(Km2),Armed Forces size,Birth Rate,Calling Code,Capital/Major City,Co2-Emissions,CPI,CPI Change (%),Currency-Code,Fertility Rate,Forested Area (%),Gasoline Price
0,Afghanistan,60,AF,58.10%,652230,323000,32.49,93.0,Kabul,8672,149.9,2.30%,AFN,4.47,2.10%,$0.70
1,Albania,105,AL,43.10%,28748,9000,11.78,355.0,Tirana,4536,119.05,1.40%,ALL,1.62,28.10%,$1.36


In [8]:
df_world2.head(2)

Unnamed: 0,GDP,Gross primary education enrollment (%),Gross tertiary education enrollment (%),Infant mortality,Largest city,Life expectancy,Maternal mortality ratio,Minimum wage,Official language,Out of pocket health expenditure,Physicians per thousand,Population,Population: Labor force participation (%),Tax revenue (%),Total tax rate,Unemployment rate,Urban_population,country,coordinates
0,"$19,101,353,833",104.00%,9.70%,47.9,Kabul,64.5,638.0,$0.43,Pashto,78.40%,0.28,38041754,48.90%,9.30%,71.40%,11.12%,9797273,Afghanistan,"('33.93911 ', '67.709953')"
1,"$15,278,077,447",107.00%,55.00%,7.8,Tirana,78.5,15.0,$1.12,Albanian,56.90%,1.2,2854191,55.70%,18.60%,36.60%,12.33%,1747593,Albania,"('41.153332 ', '20.168331')"


In [12]:
#Unimos con un merge por la columna común 'country', y añadiendo las columnas del df_world2 a la derecha del df_world1, así tenemos un único df con todas las columnas
df_merged=df_world1.merge(df_world2, left_on='Country', right_on='country')
df_merged.head(2)

Unnamed: 0,Country,Density\n(P/Km2),Abbreviation,Agricultural Land( %),Land Area(Km2),Armed Forces size,Birth Rate,Calling Code,Capital/Major City,Co2-Emissions,...,Out of pocket health expenditure,Physicians per thousand,Population,Population: Labor force participation (%),Tax revenue (%),Total tax rate,Unemployment rate,Urban_population,country,coordinates
0,Afghanistan,60,AF,58.10%,652230,323000,32.49,93.0,Kabul,8672,...,78.40%,0.28,38041754,48.90%,9.30%,71.40%,11.12%,9797273,Afghanistan,"('33.93911 ', '67.709953')"
1,Albania,105,AL,43.10%,28748,9000,11.78,355.0,Tirana,4536,...,56.90%,1.2,2854191,55.70%,18.60%,36.60%,12.33%,1747593,Albania,"('41.153332 ', '20.168331')"


#### Ejercicios de Limpieza
1. Después de la unión de datos, tenemos dos columnas de "country". Elimina una de ellas.

In [17]:
#Eliminamos columna sobreeescribiendo el resultado
df_merged.drop(['country'], axis=1, inplace=True)
df_merged.head(1)

Unnamed: 0,Country,Density\n(P/Km2),Abbreviation,Agricultural Land( %),Land Area(Km2),Armed Forces size,Birth Rate,Calling Code,Capital/Major City,Co2-Emissions,...,Official language,Out of pocket health expenditure,Physicians per thousand,Population,Population: Labor force participation (%),Tax revenue (%),Total tax rate,Unemployment rate,Urban_population,coordinates
0,Afghanistan,60,AF,58.10%,652230,323000,32.49,93.0,Kabul,8672,...,Pashto,78.40%,0.28,38041754,48.90%,9.30%,71.40%,11.12%,9797273,"('33.93911 ', '67.709953')"


2. Los nombres de las columnas no son homogeneos. Cambia los nombres de las columnas de tal forma que:

- No tengan espacios.

In [18]:
#Itero las columnas del df_merged y reemplazo los ' ' por ''
#for i in df_merged.columns:
#    i.replace(' ', '')

df_merged.columns=[i.replace(' ','') for i in df_merged.columns]
df_merged.head(1)

Unnamed: 0,Country,Density\n(P/Km2),Abbreviation,AgriculturalLand(%),LandArea(Km2),ArmedForcessize,BirthRate,CallingCode,Capital/MajorCity,Co2-Emissions,...,Officiallanguage,Outofpockethealthexpenditure,Physiciansperthousand,Population,Population:Laborforceparticipation(%),Taxrevenue(%),Totaltaxrate,Unemploymentrate,Urban_population,coordinates
0,Afghanistan,60,AF,58.10%,652230,323000,32.49,93.0,Kabul,8672,...,Pashto,78.40%,0.28,38041754,48.90%,9.30%,71.40%,11.12%,9797273,"('33.93911 ', '67.709953')"


- Estén en minúscula.

In [19]:
df_merged.columns=[i.lower() for i in df_merged.columns]
df_merged.head(1)

Unnamed: 0,country,density\n(p/km2),abbreviation,agriculturalland(%),landarea(km2),armedforcessize,birthrate,callingcode,capital/majorcity,co2-emissions,...,officiallanguage,outofpockethealthexpenditure,physiciansperthousand,population,population:laborforceparticipation(%),taxrevenue(%),totaltaxrate,unemploymentrate,urban_population,coordinates
0,Afghanistan,60,AF,58.10%,652230,323000,32.49,93.0,Kabul,8672,...,Pashto,78.40%,0.28,38041754,48.90%,9.30%,71.40%,11.12%,9797273,"('33.93911 ', '67.709953')"


- No tengan paréntesis, es decir, quitar "(%)", "(Km2)".

In [27]:
for i in df_merged.columns:
    i.str.replace('(%)', '').str.replace('(km2)', '').str.replace('(p/km2)', '')

df_merged.head(1)




AttributeError: 'str' object has no attribute 'str'

In [None]:
for col in df_merged.columns:
    new_col = col.replace('(%)', '').replace('(Km2)', '').replace('(p/km2)', '').replace(' ', '_')
    new_columns.append(new_col)

- Algunas columnas tiene "\n". Eliminalos de los nombres de las columnas.

- Algunas columnas tienen ":". Eliminalos de los nombres de las columnas.

3. La columnas coordinates tiene la latitud y la longitud en una sola columna. Crea dos columnas nuevas, una con la longitud y otra con la latitud. Una vez hecho, elimina la columna de `coordinates`.

4. Las columnas `unemployment_rate`, `total_tax_rate`, `tax_revenue`, `population_labor_force_participation`, `out_of_pocket_health_expenditure`, `gross_tertiary_education_enrollment`, `gross_primary_education_enrollment`, `forested_area`, `cpi_change`, `agricultural_land tienen` "%". Elimina los "%" de los valores de las columnas.

5. Haz lo mismo para las columnas de `gasoline_price`, `gdp`, `minimum_wage`, pero eliminando "$".

6. Guarda el DataFrame para usarlo en el pairprogramming de mañana.

#### Ejercicios de Filtrado
1. Encuentra todos los países cuya mortalidad infantil esté entre 40 y 50 personas por kilómetro cuadrado.

2. Encuentra los países cuyas tasas de natalidad son mayores o iguales a 20 y su esperanza de vida es mayor de 75 años.

3. Encuentra las ciudades cuyos paises contienen la palabra "la" en su nombre.

4. Encuentra los países cuyos medicos por cada 1000 habitantes (physicians_per_thousand) sea mayores de 5.

5. Encuentra los países cuyatasa de fertilidad sea mayor a 6.

6. Encuentra los países cuya moneda es el euro (EUR) y tienen una tasa de natalidad superior al promedio.

7. Encuentra los países cuyas tasas de mortalidad infantil son superiores a 70.