# Examen Análisis de Datos: Pandas

El examen comienza a partir del dataset 'paises.csv', importado en la primera celda.

Este dataset contiene información de diversos paises. Sus columnas son:
+ pais
+ continente 
+ region
+ poblacion
+ PIB


#### Cada celda contiene uno o varios comentarios que indican la instrucción/es a ejecutar.

In [47]:
import pandas as pd

# Importación inicial del dataset
paisesdf = pd.read_csv('paises_examen.csv')
paisesdf.head(5)

Unnamed: 0,pais,continente,region,poblacion,PIB
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0
1,Albania,Europe,Southern Europe,,4500.0
2,Algeria,Africa,Northern Africa,32930091.0,6000.0
3,American Samoa,Oceania,Polynesia,57794.0,8000.0
4,Andorra,Europe,Southern Europe,71201.0,19000.0


# Ejercicio 1. Limpieza y preparación del dataset (2 puntos)


En cada celda se limpian varios nulos o duplicados. También se transforman los valores de una columna. Cada transformación es 0,5 puntos.

Después de hacerlo, muestra que se han eliminado correctamente volviendo a mostrar cuántos nulos o duplicados hay. 

Realiza los cambios de manera que en "paisesdf" tengas la versión limpia del DataFrame. Es decir, no dupliques en otros nombres de variables.

In [48]:
# Consulta la existencia de nulos (que se vea cuántos hay por columnas)
print(paisesdf.isnull().sum())

pais          0
continente    0
region        0
poblacion     2
PIB           2
dtype: int64


In [49]:
# Elimina las filas que contienen nulos solamente en la columna 'poblacion'. 
paisesdf.dropna(subset=['poblacion'],inplace=True)


# Comprueba ahora si hay nulos solamente en columna población con un mensaje "Nulos en población: N" siendo N el número de nulos
nulos_poblacion = paisesdf['poblacion'].isnull().sum()
print(f"Nulos en población: {nulos_poblacion}")

Nulos en población: 0


In [55]:
# Rellena los nulos en la columna PIB con la media del PIB de todos los países.
paisesdf['PIB'] = paisesdf['PIB'].fillna(paisesdf['PIB'].mean()) 

# Muestra la existencia de nulos (cuántos y en qué columnas)
print(paisesdf.isnull().sum())

pais          0
continente    0
region        0
poblacion     0
PIB           0
dtype: int64


In [56]:
# Comprueba la existencia de duplicados
print(paisesdf.duplicated().sum())

0


In [57]:
# Elimina los duplicados
paisesdf.drop_duplicates(inplace=True) 

# Vuelve a comprobar la existencia de duplicados
print(paisesdf.duplicated().sum())

0


In [58]:
# Consulta (imprime) los valores únicos de la columna contienente
print(paisesdf['continente'].unique())

['Asia' 'Africa' 'Oceania' 'Europe' 'Americas']


In [59]:
# Traduce los nombres de los continentes a español mediante una función map y un diccionario
# Los nombres traducidos son: África, Asia, Oceanía, Europa, América
continentes = {'Europe': 'Europa', 'Africa':'África', 'Oceania':'Oceanía', 'Americas':'América', 'Asia':'Asia'}
paisesdf['continente'] = paisesdf['continente'].map(continentes)

# Realiza una muestra de 5 líneas para comprobar
paisesdf.head(5)


Unnamed: 0,pais,continente,region,poblacion,PIB
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0
2,Algeria,África,Northern Africa,32930091.0,6000.0
3,American Samoa,Oceanía,Polynesia,57794.0,8000.0
4,Andorra,Europa,Southern Europe,71201.0,19000.0
5,Angola,África,Sub-Saharan Africa,12127071.0,1900.0


# Ejercicio 3. Consultas (4 puntos)
Cada celda es 1 punto. 

Lee atentamente cada comentario para saber que debes hacer en la consulta.

Cuando sea neceario filtrar por filas se debe **usar QUERY** en lugar de indexación booleana.

In [60]:
# Muestra solamente los 5 paises con mayor PIB (Columnas PIB, pais, población)
paisesdf[['PIB', 'pais', 'poblacion']].sort_values('PIB', ascending=False).head(5)


Unnamed: 0,PIB,pais,poblacion
104,55100.0,Luxembourg,474413.0
133,37800.0,Norway,4610820.0
185,37800.0,United States,298444215.0
20,36000.0,Bermuda,65773.0
31,35000.0,Cayman Islands,45436.0


In [61]:
# Muestra los paises con más de 80_000_000 de habitantes, ordenados por población de mayor a menor
# Muestra solamente las columnas pais y población
paisesdf.query('poblacion > 80000000')[['pais','poblacion']].sort_values('poblacion', ascending=False).head()


Unnamed: 0,pais,poblacion
34,China,1313974000.0
79,India,1095352000.0
185,United States,298444200.0
80,Indonesia,245452700.0
24,Brazil,188078200.0


In [65]:
# Muestra el total de población y PIB agrupando por region, ordenado por PIB de mayor a menor
paisesdf.groupby(['region'])[['poblacion', 'PIB']].sum().sort_values('PIB', ascending=False)


Unnamed: 0_level_0,poblacion,PIB
region,Unnamed: 1_level_1,Unnamed: 2_level_1
Northern Europe,96744380.0,333000.0
Latin America and the Caribbean,559972200.0,290500.0
Western Europe,186426700.0,282700.0
Southern Europe,138305900.0,214000.0
Western Asia,206778600.0,175300.0
Northern America,331665300.0,123600.0
Sub-Saharan Africa,614250200.0,103191.623037
Eastern Europe,298246100.0,90800.0
Eastern Asia,1474246000.0,87200.0
South-eastern Asia,533083900.0,54000.0


In [69]:
# Muestra la población y el PIB de los paises de la siguiente lista 1 query
lista=['China', 'India', 'Brazil', 'Russia']
paisesdf.query(f'pais in {lista}')[['pais', 'poblacion', 'PIB']]


Unnamed: 0,pais,poblacion,PIB
24,Brazil,188078200.0,7600.0
34,China,1313974000.0,5000.0
79,India,1095352000.0,2900.0
147,Russia,142893500.0,8900.0


In [67]:
# Muestra los paises de Europa con mayor PIB a la media de Europa
media_europa_pib = paisesdf.query('continente == "Europa"')['PIB'].mean()
# Calcula la media primero y luego haz la consulta
paisesdf.query(f'continente == "Europa" and PIB > {media_europa_pib}')

Unnamed: 0,pais,continente,region,poblacion,PIB
11,Austria,Europa,Western Europe,8192880.0,30000.0
17,Belgium,Europa,Western Europe,10379067.0,29100.0
43,Denmark,Europa,Northern Europe,5450661.0,31100.0
54,Faroe Islands,Europa,Northern Europe,47246.0,22000.0
56,Finland,Europa,Northern Europe,5231372.0,27400.0
57,France,Europa,Western Europe,60876136.0,27600.0
62,Germany,Europa,Western Europe,82422299.0,27600.0
78,Iceland,Europa,Northern Europe,299388.0,30900.0
83,Ireland,Europa,Northern Europe,4062235.0,29600.0
84,Isle of Man,Europa,Northern Europe,75441.0,21000.0


# Ejercicio 4. Discretización (2 puntos)

1 punto cada celda.

In [77]:
# Crea una nueva columna PIB_total que sea el PIB per cápita multiplicado por la población
paisesdf['PIB_total'] = (paisesdf['PIB'] * paisesdf['poblacion'])

# Discretiza la columna PIB en 5 intervalos por quantiles, es decir, cada bloque tenga más o menos el mismo número de paises.
# deben tener las etiquetas 'MuyBajo', 'Bajo', 'Medio', 'Alto', 'MuyAlto'
# La nueva columna se debe llamar PIB_cat
paisesdf['PIB_cat'] = pd.qcut(paisesdf['PIB_total'], q=5, labels=['MuyBajo', 'Bajo', 'Medio', 'Alto', 'MuyAlto'])

# muestra cuantos paises hay en cada categoría creada anteriormente
paisesdf['PIB_cat'].value_counts()

PIB_cat
MuyBajo    39
Medio      39
MuyAlto    39
Bajo       38
Alto       38
Name: count, dtype: int64

In [91]:
# Crea un DataFrame "dummy" almacenado en la variable 'dummy' para la columna PIB_cat con el prefijo 'PIB'
dummy = pd.get_dummies(paisesdf['PIB_cat'], prefix='PIB')

# Concatena la variable dummy al dataframe "paisesdf"
df_concadenado = pd.concat([paisesdf, dummy], axis=1)

# Muestra el resultado, 10 primeras líneas
df_concadenado.head(10)


Unnamed: 0,pais,continente,region,poblacion,PIB,PIB_cat,PIB_MuyBajo,PIB_Bajo,PIB_Medio,PIB_Alto,PIB_MuyAlto
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0,Medio,False,False,True,False,False
2,Algeria,África,Northern Africa,32930091.0,6000.0,Alto,False,False,False,True,False
3,American Samoa,Oceanía,Polynesia,57794.0,8000.0,MuyBajo,True,False,False,False,False
4,Andorra,Europa,Southern Europe,71201.0,19000.0,MuyBajo,True,False,False,False,False
5,Angola,África,Sub-Saharan Africa,12127071.0,1900.0,Medio,False,False,True,False,False
6,Anguilla,América,Latin America and the Caribbean,13477.0,8600.0,MuyBajo,True,False,False,False,False
7,Argentina,América,Latin America and the Caribbean,39921833.0,11200.0,MuyAlto,False,False,False,False,True
8,Armenia,Asia,Western Asia,2976372.0,3500.0,Bajo,False,True,False,False,False
9,Aruba,América,Latin America and the Caribbean,71891.0,28000.0,MuyBajo,True,False,False,False,False
10,Australia,Oceanía,Australia and New Zealand,20264082.0,29000.0,MuyAlto,False,False,False,False,True


# Ejercicio 5. Union de datasets y su preparación (1.5 puntos)

Vamos a trabajar con un nuevo dataset 'medicos.csv', que contiene el número de médicos por cada 10.000 habitantes: 

+ Location: Nombre de país
+ Period: Año de la estadística
+ Fist Tooltip:  número de médicos por cada 10.000 habitantes.

El objetivo es tener una unión de médicosdf con paisesdf.

Las instrucciones está en las siguientes celdas.

In [84]:
# importación de datos medicos.csv y muestra de información
medicosdf = pd.read_csv('medicos_examen.csv')
medicosdf.head(5)

Unnamed: 0,Location,Period,Indicator,First Tooltip
0,Afghanistan,2016,"Medical doctors (per 10,000)",2.78
1,Afghanistan,2015,"Medical doctors (per 10,000)",2.85
2,Afghanistan,2014,"Medical doctors (per 10,000)",2.98
3,Afghanistan,2013,"Medical doctors (per 10,000)",2.85
4,Afghanistan,2012,"Medical doctors (per 10,000)",2.41


### 5.1. Limpiar paisesdf

Previamente vamos a limpiar paisesdf:

+ Borra la columna PIB_total
+ Borra las columnas dummies (PIB_Bajo, PIB_Medio...)


In [82]:
# Limpiar paisesdf
paisesdf.drop(columns=['PIB_total'], inplace=True)
#no he borrado las columnas dummies por que para unirlas cree otro df concadenando otros dos

# Muestra el resultado de las 5 primeras líneas después de borrar
paisesdf.head(5)

Unnamed: 0,pais,continente,region,poblacion,PIB,PIB_cat
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0,Medio
2,Algeria,África,Northern Africa,32930091.0,6000.0,Alto
3,American Samoa,Oceanía,Polynesia,57794.0,8000.0,MuyBajo
4,Andorra,Europa,Southern Europe,71201.0,19000.0,MuyBajo
5,Angola,África,Sub-Saharan Africa,12127071.0,1900.0,Medio


### 5.2 Preparar medicosdf

Hay que hacer las siguientes tareas:

+ Hacer una copia de los datos de 2018 en otro DF. Los siguientes puntos son a partir de esta copia.
+ Quedarnos solamente con las columnas País y First Tooltip
+ Traducir columnas al español (Fistr Tooltip se traduce a 'medicos') 


In [86]:
# Preparar medicosdf
medicos2018df = medicosdf.query('Period == 2018')[['Location', 'First Tooltip']]
medicos2018df.columns = ['pais', 'medicos']

medicos2018df.head()

Unnamed: 0,pais,medicos
34,Algeria,17.19
183,Bangladesh,5.81
255,Benin,0.79
263,Bhutan,4.24
312,Brazil,21.64


### 5.3. Unión de ambos DF

+ Hacer la unión de ambos DataFrame: unión externa por columna nombre país
+ Mostrar el resultado final del DF, 5 filas

In [87]:
# Unión
finaldf = pd.merge(paisesdf, medicos2018df, on='pais', how='right')

# Muestra las 5 primeras líneas para comprobar el resultado
finaldf.head(5)

Unnamed: 0,pais,continente,region,poblacion,PIB,PIB_cat,medicos
0,Algeria,África,Northern Africa,32930091.0,6000.0,Alto,17.19
1,Bangladesh,Asia,Southern Asia,147365352.0,1900.0,MuyAlto,5.81
2,Benin,África,Sub-Saharan Africa,7862944.0,1100.0,Bajo,0.79
3,Bhutan,Asia,Southern Asia,2279723.0,1300.0,Bajo,4.24
4,Brazil,América,Latin America and the Caribbean,188078227.0,7600.0,MuyAlto,21.64


### 5.4. Nulos

+ Mostrar si se han generado nulos y en qué columnas y cuántos (puede ser en celda aparte)
+ Mostrar qué paises tienen nulo su columna contienene.  (puede ser en celda aparte)
+ Responder con un comentario a qué se deben (por qué se han generado) los 7 nulos de varias columnas

In [88]:
#nulos
print(finaldf.isnull().sum())

pais          0
continente    7
region        7
poblacion     7
PIB           7
PIB_cat       7
medicos       0
dtype: int64


In [None]:
#nulos en continente
finaldf[finaldf['continente'].isna()]

Unnamed: 0,pais,continente,region,poblacion,PIB,PIB_cat,medicos
9,Czechia,,,,,,41.21
22,Iran (Islamic Republic of),,,,,,15.84
35,Montenegro,,,,,,27.56
37,Myanmar,,,,,,6.77
54,Timor-Leste,,,,,,7.22
56,Trinidad and Tobago,,,,,,41.68
58,United Kingdom of Great Britain and Northern I...,,,,,,28.12


In [None]:
#son paises que aparecen en el csv de medicos pero no en el de paises