# Examen Análisis de Datos: Pandas

El examen comienza a partir del dataset 'paises.csv', importado en la primera celda.

Este dataset contiene información de diversos paises. Sus columnas son:
+ pais
+ continente 
+ region
+ poblacion
+ PIB


#### Cada celda contiene uno o varios comentarios que indican la instrucción/es a ejecutar.

In [457]:
import pandas as pd

# Importación inicial del dataset
paisesdf = pd.read_csv('paises_examen.csv')
paisesdf.head(5)

Unnamed: 0,pais,continente,region,poblacion,PIB
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0
1,Albania,Europe,Southern Europe,,4500.0
2,Algeria,Africa,Northern Africa,32930091.0,6000.0
3,American Samoa,Oceania,Polynesia,57794.0,8000.0
4,Andorra,Europe,Southern Europe,71201.0,19000.0


# Ejercicio 1. Limpieza y preparación del dataset (2 puntos)


En cada celda se limpian varios nulos o duplicados. También se transforman los valores de una columna. Cada transformación es 0,5 puntos.

Después de hacerlo, muestra que se han eliminado correctamente volviendo a mostrar cuántos nulos o duplicados hay. 

Realiza los cambios de manera que en "paisesdf" tengas la versión limpia del DataFrame. Es decir, no dupliques en otros nombres de variables.

In [458]:
# Consulta la existencia de nulos (que se vea cuántos hay por columnas)
paisesdf.isnull().sum()

pais          0
continente    0
region        0
poblacion     2
PIB           2
dtype: int64

In [459]:
# Elimina las filas que contienen nulos solamente en la columna 'poblacion'. 
paisesdf['poblacion'] = paisesdf['poblacion'].dropna()


# Comprueba ahora si hay nulos solamente en columna población con un mensaje "Nulos en población: N" siendo N el número de nulos
print(f"Nulos en población: {paisesdf.isnull().sum()}")

Nulos en población: pais          0
continente    0
region        0
poblacion     2
PIB           2
dtype: int64


In [460]:
# Rellena los nulos en la columna PIB con la media del PIB de todos los países.
paisesdf['PIB'] = paisesdf['PIB'].fillna(paisesdf['PIB'].mean())

# Muestra la existencia de nulos (cuántos y en qué columnas)
print(f"Nulos en PIB: {paisesdf.isnull().sum()}")

Nulos en PIB: pais          0
continente    0
region        0
poblacion     2
PIB           0
dtype: int64


In [461]:
# Comprueba la existencia de duplicados
paisesdf.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
191    False
192    False
193    False
194    False
195     True
Length: 196, dtype: bool

In [462]:
# Elimina los duplicados
print(paisesdf.drop_duplicates())

# Vuelve a comprobar la existencia de duplicados
paisesdf.duplicated()

                  pais continente              region   poblacion      PIB
0          Afghanistan       Asia       Southern Asia  31056997.0    700.0
1              Albania     Europe     Southern Europe         NaN   4500.0
2              Algeria     Africa     Northern Africa  32930091.0   6000.0
3       American Samoa    Oceania           Polynesia     57794.0   8000.0
4              Andorra     Europe     Southern Europe     71201.0  19000.0
..                 ...        ...                 ...         ...      ...
190            Vietnam       Asia  South-eastern Asia  84402966.0   2500.0
191  Wallis and Futuna    Oceania           Polynesia     16025.0   3700.0
192              Yemen       Asia        Western Asia  21456188.0    800.0
193             Zambia     Africa  Sub-Saharan Africa  11502010.0    800.0
194           Zimbabwe     Africa  Sub-Saharan Africa  12236805.0   1900.0

[195 rows x 5 columns]


0      False
1      False
2      False
3      False
4      False
       ...  
191    False
192    False
193    False
194    False
195     True
Length: 196, dtype: bool

In [463]:
# Consulta (imprime) los valores únicos de la columna contienente
paisesdf['continente'].unique()

array(['Asia', 'Europe', 'Africa', 'Oceania', 'Americas'], dtype=object)

In [464]:
# Traduce los nombres de los continentes a español mediante una función map y un diccionario
# Los nombres traducidos son: África, Asia, Oceanía, Europa, América
traducido = {'Africa' : 'África', 'Asia' : 'Asia', 'Oceania' : 'Oceanía', 'Europe' : 'Europa', 'Americas' : "América"}
paisesdf['traducido'] = paisesdf['continente'].map(traducido)
# Realiza una muestra de 5 líneas para comprobar
paisesdf.head()

Unnamed: 0,pais,continente,region,poblacion,PIB,traducido
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0,Asia
1,Albania,Europe,Southern Europe,,4500.0,Europa
2,Algeria,Africa,Northern Africa,32930091.0,6000.0,África
3,American Samoa,Oceania,Polynesia,57794.0,8000.0,Oceanía
4,Andorra,Europe,Southern Europe,71201.0,19000.0,Europa


# Ejercicio 3. Consultas (4 puntos)
Cada celda es 1 punto. 

Lee atentamente cada comentario para saber que debes hacer en la consulta.

Cuando sea neceario filtrar por filas se debe **usar QUERY** en lugar de indexación booleana.

In [465]:
# Muestra solamente los 5 paises con mayor PIB (Columnas PIB, pais, población)
paises = paisesdf[['PIB','pais', 'poblacion']]
paises_sorted = paisesdf.sort_values(by='PIB', ascending=False)
paises_sorted.head()

Unnamed: 0,pais,continente,region,poblacion,PIB,traducido
104,Luxembourg,Europe,Western Europe,474413.0,55100.0,Europa
133,Norway,Europe,Northern Europe,4610820.0,37800.0,Europa
185,United States,Americas,Northern America,298444215.0,37800.0,América
20,Bermuda,Americas,Northern America,65773.0,36000.0,América
31,Cayman Islands,Americas,Latin America and the Caribbean,45436.0,35000.0,América


In [466]:
# Muestra los paises con más de 80_000_000 de habitantes, ordenados por población de mayor a menor
# Muestra solamente las columnas pais y población
paises_mas_de_80 = paisesdf.query('poblacion > 80000000')[['PIB', 'poblacion']]
paises_mas_de_80_sorted= paises_mas_de_80.sort_values(by="poblacion", ascending=False)
paises_mas_de_80_sorted

Unnamed: 0,PIB,poblacion
34,5000.0,1313974000.0
79,2900.0,1095352000.0
185,37800.0,298444200.0
80,3200.0,245452700.0
24,7600.0,188078200.0
135,2100.0,165803600.0
14,1900.0,147365400.0
147,8900.0,142893500.0
131,900.0,131859700.0
88,28200.0,127463600.0


In [467]:
# Muestra el total de población y PIB agrupando por region, ordenado por PIB de mayor a menor
medios_region = paisesdf.groupby('region')[['PIB', 'poblacion']].sum()
medios_region_sorted = medios_region.sort_values(by='PIB', ascending=False)
medios_region_sorted

Unnamed: 0_level_0,PIB,poblacion
region,Unnamed: 1_level_1,Unnamed: 2_level_1
Northern Europe,333000.0,96744380.0
Latin America and the Caribbean,290500.0,559972200.0
Western Europe,282700.0,186426700.0
Southern Europe,240500.0,178703800.0
Western Asia,175300.0,206778600.0
Northern America,123600.0,331665300.0
Sub-Saharan Africa,103197.938144,614250200.0
Eastern Europe,90800.0,298246100.0
Eastern Asia,87200.0,1474246000.0
South-eastern Asia,54000.0,533083900.0


In [468]:
# Muestra la población y el PIB de los paises de la siguiente lista 1 query
# lista = ['China', 'India', 'Brazil', 'Russia']
# pib_lista = paisesdf['pais'].isin(lista)
# pib_pobla_lista = paisesdf[pib_lista] 
# pib_pobla_lista[['poblacion', 'PIB']]
lista = ['China', 'India', 'Brazil', 'Russia']
pib_lista = paisesdf.query('pais in @lista')[['poblacion', 'PIB']]
pib_lista

Unnamed: 0,poblacion,PIB
24,188078200.0,7600.0
34,1313974000.0,5000.0
79,1095352000.0,2900.0
147,142893500.0,8900.0


In [469]:
# Muestra los paises de Europa con mayor PIB a la media de Europa
europa = paisesdf.query("continente == 'Europe'")
media_europa = europa['PIB'].mean()

# Calcula la media primero y luego haz la consulta
paisesdf.query(f"PIB > {media_europa}")

Unnamed: 0,pais,continente,region,poblacion,PIB,traducido
9,Aruba,Americas,Latin America and the Caribbean,71891.0,28000.0,América
10,Australia,Oceania,Australia and New Zealand,20264082.0,29000.0,Oceanía
11,Austria,Europe,Western Europe,8192880.0,30000.0,Europa
17,Belgium,Europe,Western Europe,10379067.0,29100.0,Europa
20,Bermuda,Americas,Northern America,65773.0,36000.0,América
30,Canada,Americas,Northern America,33098932.0,29800.0,América
31,Cayman Islands,Americas,Latin America and the Caribbean,45436.0,35000.0,América
43,Denmark,Europe,Northern Europe,5450661.0,31100.0,Europa
54,Faroe Islands,Europe,Northern Europe,47246.0,22000.0,Europa
56,Finland,Europe,Northern Europe,5231372.0,27400.0,Europa


# Ejercicio 4. Discretización (2 puntos)

1 punto cada celda.

In [470]:
# Crea una nueva columna PIB_total que sea el PIB per cápita multiplicado por la población
paisesdf["PIB_total"] = paisesdf['PIB'] * paisesdf['poblacion']

# Discretiza la columna PIB en 5 intervalos por quantiles, es decir, cada bloque tenga más o menos el mismo número de paises.
# deben tener las etiquetas 'MuyBajo', 'Bajo', 'Medio', 'Alto', 'MuyAlto'
# La nueva columna se debe llamar PIB_cat
paisesdf['PIB_cat'] = pd.cut(paisesdf['PIB'], 5, labels=['MuyBajo', 'Bajo', 'Medio', 'Alto', 'MuyAlto'])


# muestra cuantos paises hay en cada categoría creada anteriormente
pd.value_counts(paisesdf['PIB_cat'])

  pd.value_counts(paisesdf['PIB_cat'])


PIB_cat
MuyBajo    135
Bajo        31
Medio       24
Alto         5
MuyAlto      1
Name: count, dtype: int64

In [471]:
# Crea un DataFrame "dummy" almacenado en la variable 'dummy' para la columna PIB_cat con el prefijo 'PIB'
dummy = pd.get_dummies(paisesdf['PIB_cat'], prefix='PIB')

# Concatena la variable dummy al dataframe "paisesdf"
paisesdf = paisesdf.join(dummy)

# Muestra el resultado, 10 primeras líneas
paisesdf.head(10)

Unnamed: 0,pais,continente,region,poblacion,PIB,traducido,PIB_total,PIB_cat,PIB_MuyBajo,PIB_Bajo,PIB_Medio,PIB_Alto,PIB_MuyAlto
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0,Asia,21739900000.0,MuyBajo,True,False,False,False,False
1,Albania,Europe,Southern Europe,,4500.0,Europa,,MuyBajo,True,False,False,False,False
2,Algeria,Africa,Northern Africa,32930091.0,6000.0,África,197580500000.0,MuyBajo,True,False,False,False,False
3,American Samoa,Oceania,Polynesia,57794.0,8000.0,Oceanía,462352000.0,MuyBajo,True,False,False,False,False
4,Andorra,Europe,Southern Europe,71201.0,19000.0,Europa,1352819000.0,Bajo,False,True,False,False,False
5,Angola,Africa,Sub-Saharan Africa,12127071.0,1900.0,África,23041430000.0,MuyBajo,True,False,False,False,False
6,Anguilla,Americas,Latin America and the Caribbean,13477.0,8600.0,América,115902200.0,MuyBajo,True,False,False,False,False
7,Argentina,Americas,Latin America and the Caribbean,39921833.0,11200.0,América,447124500000.0,MuyBajo,True,False,False,False,False
8,Armenia,Asia,Western Asia,2976372.0,3500.0,Asia,10417300000.0,MuyBajo,True,False,False,False,False
9,Aruba,Americas,Latin America and the Caribbean,71891.0,28000.0,América,2012948000.0,Medio,False,False,True,False,False


# Ejercicio 5. Union de datasets y su preparación (1.5 puntos)

Vamos a trabajar con un nuevo dataset 'medicos.csv', que contiene el número de médicos por cada 10.000 habitantes: 

+ Location: Nombre de país
+ Period: Año de la estadística
+ Fist Tooltip:  número de médicos por cada 10.000 habitantes.

El objetivo es tener una unión de médicosdf con paisesdf.

Las instrucciones está en las siguientes celdas.

In [472]:
# importación de datos medicos.csv y muestra de información
medicosdf = pd.read_csv('medicos_examen.csv')
medicosdf.head(5)

Unnamed: 0,Location,Period,Indicator,First Tooltip
0,Afghanistan,2016,"Medical doctors (per 10,000)",2.78
1,Afghanistan,2015,"Medical doctors (per 10,000)",2.85
2,Afghanistan,2014,"Medical doctors (per 10,000)",2.98
3,Afghanistan,2013,"Medical doctors (per 10,000)",2.85
4,Afghanistan,2012,"Medical doctors (per 10,000)",2.41


### 5.1. Limpiar paisesdf

Previamente vamos a limpiar paisesdf:

+ Borra la columna PIB_total
+ Borra las columnas dummies (PIB_Bajo, PIB_Medio...)


In [473]:
# Limpiar paisesdf
limpio = paisesdf.drop(columns=["PIB_total"])

# Muestra el resultado de las 5 primeras líneas después de borrar
limpio.head()

Unnamed: 0,pais,continente,region,poblacion,PIB,traducido,PIB_cat,PIB_MuyBajo,PIB_Bajo,PIB_Medio,PIB_Alto,PIB_MuyAlto
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0,Asia,MuyBajo,True,False,False,False,False
1,Albania,Europe,Southern Europe,,4500.0,Europa,MuyBajo,True,False,False,False,False
2,Algeria,Africa,Northern Africa,32930091.0,6000.0,África,MuyBajo,True,False,False,False,False
3,American Samoa,Oceania,Polynesia,57794.0,8000.0,Oceanía,MuyBajo,True,False,False,False,False
4,Andorra,Europe,Southern Europe,71201.0,19000.0,Europa,Bajo,False,True,False,False,False


### 5.2 Preparar medicosdf

Hay que hacer las siguientes tareas:

+ Hacer una copia de los datos de 2018 en otro DF. Los siguientes puntos son a partir de esta copia.
+ Quedarnos solamente con las columnas País y First Tooltip
+ Traducir columnas al español (Fistr Tooltip se traduce a 'medicos') 


In [474]:
# Preparar medicosdf
copia_2018 = medicosdf.query("Period == 2018").copy()

copia_2018_pais = copia_2018[['Location', 'First Tooltip']]
columnas_traducidas = ['pais', 'medicos']
copia_2018_pais.columns = columnas_traducidas
copia_2018_pais

Unnamed: 0,pais,medicos
34,Algeria,17.19
183,Bangladesh,5.81
255,Benin,0.79
263,Bhutan,4.24
312,Brazil,21.64
...,...,...
2251,Trinidad and Tobago,41.68
2359,United Arab Emirates,25.28
2378,United Kingdom of Great Britain and Northern I...,28.12
2479,Zambia,11.87


### 5.3. Unión de ambos DF

+ Hacer la unión de ambos DataFrame: unión externa por columna nombre país
+ Mostrar el resultado final del DF, 5 filas

In [475]:
# Unión
df_combinado = pd.merge(limpio, copia_2018_pais, on='pais', how='outer')

# Muestra las 5 primeras líneas para comprobar el resultado
df_combinado.head()

Unnamed: 0,pais,continente,region,poblacion,PIB,traducido,PIB_cat,PIB_MuyBajo,PIB_Bajo,PIB_Medio,PIB_Alto,PIB_MuyAlto,medicos
0,Afghanistan,Asia,Southern Asia,31056997.0,700.0,Asia,MuyBajo,True,False,False,False,False,
1,Albania,Europe,Southern Europe,,4500.0,Europa,MuyBajo,True,False,False,False,False,
2,Algeria,Africa,Northern Africa,32930091.0,6000.0,África,MuyBajo,True,False,False,False,False,17.19
3,American Samoa,Oceania,Polynesia,57794.0,8000.0,Oceanía,MuyBajo,True,False,False,False,False,
4,Andorra,Europe,Southern Europe,71201.0,19000.0,Europa,Bajo,False,True,False,False,False,


### 5.4. Nulos

+ Mostrar si se han generado nulos y en qué columnas y cuántos (puede ser en celda aparte)
+ Mostrar qué paises tienen nulo su columna contienene.  (puede ser en celda aparte)
+ Responder con un comentario a qué se deben (por qué se han generado) los 7 nulos de varias columnas

In [476]:
df_combinado.isnull().sum()

pais             0
continente       7
region           7
poblacion        9
PIB              7
traducido        7
PIB_cat          7
PIB_MuyBajo      7
PIB_Bajo         7
PIB_Medio        7
PIB_Alto         7
PIB_MuyAlto      7
medicos        142
dtype: int64

In [477]:
df_combinado.query("continente.isnull()")['pais']

# Se debe a que son paises que no tienen datos de paisesdf con lo cuál toda la parte de paisesdf sale nulo, solo tienen datos en medicosdf

43                                               Czechia
83                            Iran (Islamic Republic of)
123                                           Montenegro
127                                              Myanmar
180                                          Timor-Leste
183                                  Trinidad and Tobago
192    United Kingdom of Great Britain and Northern I...
Name: pais, dtype: object