### Title: 
# Exploratory analysis of the countries

### Description:
We are going to perform an exploratory analysis of the database _countries of the world.csv_ in order to understand the data of these countries in 2018.

### Author:
#### Jose Lopez Galdon

### Date:
23/10/2020

### Version:
...

___

### Importación de librerías y carga de datos

En primer lugar, vamos a importar las librerias necesarias para nuestro analisis:

In [1]:
    # Importamos numpy y pandas para trabajar con el DF
import numpy as np
import pandas as pd

    # Importamos matplotlib para hacer los plots
import matplotlib.pyplot as plt 
%matplotlib inline

    # Importamos statistics para cálculos estadísticos como la moda
import statistics as stat

En segundo lugar, importamos nuestra base de datos:

In [11]:
data = pd.read_csv('../data/countries of the world.csv')
data

Unnamed: 0,Country,Region,Population,Area (sq. mi.),Pop. Density (per sq. mi.),Coastline (coast/area ratio),Net migration,Infant mortality (per 1000 births),GDP ($ per capita),Literacy (%),Phones (per 1000),Arable (%),Crops (%),Other (%),Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,480,000,2306,16307,700.0,360,32,1213,022,8765,1,466,2034,038,024,038
1,Albania,EASTERN EUROPE,3581655,28748,1246,126,-493,2152,4500.0,865,712,2109,442,7449,3,1511,522,0232,0188,0579
2,Algeria,NORTHERN AFRICA,32930091,2381740,138,004,-039,31,6000.0,700,781,322,025,9653,1,1714,461,0101,06,0298
3,American Samoa,OCEANIA,57794,199,2904,5829,-2071,927,8000.0,970,2595,10,15,75,2,2246,327,,,
4,Andorra,WESTERN EUROPE,71201,468,1521,000,66,405,19000.0,1000,4972,222,0,9778,3,871,625,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
222,West Bank,NEAR EAST,2460492,5860,4199,000,298,1962,800.0,,1452,169,1897,6413,3,3167,392,009,028,063
223,Western Sahara,NORTHERN AFRICA,273008,266000,10,042,,,,,,002,0,9998,1,,,,,04
224,Yemen,NEAR EAST,21456188,527970,406,036,0,615,800.0,502,372,278,024,9698,1,4289,83,0135,0472,0393
225,Zambia,SUB-SAHARAN AFRICA,11502010,752614,153,000,0,8829,800.0,806,82,708,003,929,2,41,1993,022,029,0489


***

### Diccionario 

__Country__: Listado de paises del mundo ordenados alfabéticamente.

__Region__: Zona geográfica dónde se encuentra el país.

__Population__: Población del país en habitantes.

__Area (sq. mi.)__: Superficie del país medida en millas cuadradas.

__Pop. Density (per sq. mi.)__: Densidad de población (habitante/sq. mi.).

__Coastline (coast / area ratio)__: Ratio de costa en proporción al área.

__Net migration__: El saldo migratorio, o migración neta, es el balance que existe entre la inmigración y la emigración en un determinado lugar y en un determinado periodo de tiempo.

__Infant mortality (per 1000 births)__: Tasa de mortalidad infantil, es decir, la cantidad de muertes por cada 1000 nacimientos.

__GDP (dollar per capita)__: PIB per cápita

__Literacy (%)__: Tasa de alfabetización.

__Phones (per 1000)__: Teléfonos móviles por cada 1000 habitantes.

__Arable (%)__: Terreno cultivale.

__Crops (%)__: Terreno cultivado.

__Other (%)__: Otros terrenos.

__Climate__: Clima del lugar:
- 1: ...
- 1.5: ... 
- 2: ... 
- 2.5: ... 
- 3: ... 
- 4: ...

__Birhtrate__: Tasa de natalidad.

__Deathrate__: Tasa de mortalidad.

__Agriculture__: Aportación del sector primario al PIB.

__Industry__: Aportación del sector secundario al PIB.

__Service__: Aportación del sector terciario al PIB.

***

### Visualización de los datos y transformación para su posterior análisis

Vamos a observar de qué tipo son los datos para ver si podemos comenzar a trabajar con ellos

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 20 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Country                             227 non-null    object 
 1   Region                              227 non-null    object 
 2   Population                          227 non-null    int64  
 3   Area (sq. mi.)                      227 non-null    int64  
 4   Pop. Density (per sq. mi.)          227 non-null    object 
 5   Coastline (coast/area ratio)        227 non-null    object 
 6   Net migration                       224 non-null    object 
 7   Infant mortality (per 1000 births)  224 non-null    object 
 8   GDP ($ per capita)                  226 non-null    float64
 9   Literacy (%)                        209 non-null    object 
 10  Phones (per 1000)                   223 non-null    object 
 11  Arable (%)                          225 non-n

Como podemos obsrvar muchas de las columnas como __Pop. Density__ o __Coastline__ son tipo objeto y deberían ser  de tipo float. Para solventar este problema vamos a cambiar uno a uno el tipo de columnas.

In [13]:
    # Generamos nuestras columnas con nuevos nombres para trabajar con ellas más comodamente
data.columns = ["country", "region", "population", "area", "density", "coastline", "migration", "infant_mortality", "gdp",
                "literacy", "phones", "arable", "crops", "other", "climate", "birthrate", "deathrate", "agriculture",
                "industry", "service"]

In [14]:
    # Cambiamos el tipo de columnas a float (en el caso de los datos) y category para los índices (en el caso de country y 
    # region) y las ',' por '.'
data.country = data.country.astype('category')
data.region = data.region.astype('category')
data.density = data.density.str.replace(",",".").astype(float)
data.coastline = data.coastline.str.replace(",",".").astype(float)
data.migration = data.migration.str.replace(",",".").astype(float)
data.infant_mortality = data.infant_mortality.str.replace(",",".").astype(float)
data.literacy = data.literacy.str.replace(",",".").astype(float)
data.phones = data.phones.str.replace(",",".").astype(float)
data.arable = data.arable.str.replace(",",".").astype(float)
data.crops = data.crops.str.replace(",",".").astype(float)
data.other = data.other.str.replace(",",".").astype(float)
data.climate = data.climate.str.replace(",",".").astype(float)
data.birthrate = data.birthrate.str.replace(",",".").astype(float)
data.deathrate = data.deathrate.str.replace(",",".").astype(float)
data.agriculture = data.agriculture.str.replace(",",".").astype(float)
data.industry = data.industry.str.replace(",",".").astype(float)
data.service = data.service.str.replace(",",".").astype(float)
    

In [15]:
    # Volvemos a hacer un info para comprobar que está bien
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   country           227 non-null    category
 1   region            227 non-null    category
 2   population        227 non-null    int64   
 3   area              227 non-null    int64   
 4   density           227 non-null    float64 
 5   coastline         227 non-null    float64 
 6   migration         224 non-null    float64 
 7   infant_mortality  224 non-null    float64 
 8   gdp               226 non-null    float64 
 9   literacy          209 non-null    float64 
 10  phones            223 non-null    float64 
 11  arable            225 non-null    float64 
 12  crops             225 non-null    float64 
 13  other             225 non-null    float64 
 14  climate           205 non-null    float64 
 15  birthrate         224 non-null    float64 
 16  deathrate         223 non-

En esta ocasión, si tenemos bien los tipos de datos, ya que aparecen como float los datos con los que trabajaremos y tenemos '.' en lugar de ','

In [17]:
data.head(5)

Unnamed: 0,country,region,population,area,density,coastline,migration,infant_mortality,gdp,literacy,phones,arable,crops,other,climate,birthrate,deathrate,agriculture,industry,service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,48.0,0.0,23.06,163.07,700.0,36.0,3.2,12.13,0.22,87.65,1.0,46.6,20.34,0.38,0.24,0.38
1,Albania,EASTERN EUROPE,3581655,28748,124.6,1.26,-4.93,21.52,4500.0,86.5,71.2,21.09,4.42,74.49,3.0,15.11,5.22,0.232,0.188,0.579
2,Algeria,NORTHERN AFRICA,32930091,2381740,13.8,0.04,-0.39,31.0,6000.0,70.0,78.1,3.22,0.25,96.53,1.0,17.14,4.61,0.101,0.6,0.298
3,American Samoa,OCEANIA,57794,199,290.4,58.29,-20.71,9.27,8000.0,97.0,259.5,10.0,15.0,75.0,2.0,22.46,3.27,,,
4,Andorra,WESTERN EUROPE,71201,468,152.1,0.0,6.6,4.05,19000.0,100.0,497.2,2.22,0.0,97.78,3.0,8.71,6.25,,,


Continuaremos con el tratamiento de los valores nulos, ya que como podemos observar en _Andorra_ o _American Samoa_ tenemos NaN

In [19]:
    # Primero, observamos si existen valores nulos y cuántos hay en cada columna:
data.isnull().sum()

country              0
region               0
population           0
area                 0
density              0
coastline            0
migration            3
infant_mortality     3
gdp                  1
literacy            18
phones               4
arable               2
crops                2
other                2
climate             22
birthrate            3
deathrate            4
agriculture         15
industry            16
service             15
dtype: int64

Como podemos observar más arriba tenemos valores nulos en las columnas __migration, infant_mortality, gdp, literacy, phones, arable, crop, other, climate, birhtrate, deathrate, agriculture, industry y service__.

Para solucionar el problema, sustituiremos los NaN por la media de ese campo, de manera que no tendremos errores por NaN.

In [20]:
data.fillna(data.mean(), inplace = True)

In [23]:
    # Comprobamos si ha cambiado, observando el df o contando los null
data.isnull().sum()

country             0
region              0
population          0
area                0
density             0
coastline           0
migration           0
infant_mortality    0
gdp                 0
literacy            0
phones              0
arable              0
crops               0
other               0
climate             0
birthrate           0
deathrate           0
agriculture         0
industry            0
service             0
dtype: int64

In [25]:
    # En esta vista podemos observar como Andorra y American Samoa tienen la media de ese campo
data.head(5)

Unnamed: 0,country,region,population,area,density,coastline,migration,infant_mortality,gdp,literacy,phones,arable,crops,other,climate,birthrate,deathrate,agriculture,industry,service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,48.0,0.0,23.06,163.07,700.0,36.0,3.2,12.13,0.22,87.65,1.0,46.6,20.34,0.38,0.24,0.38
1,Albania,EASTERN EUROPE,3581655,28748,124.6,1.26,-4.93,21.52,4500.0,86.5,71.2,21.09,4.42,74.49,3.0,15.11,5.22,0.232,0.188,0.579
2,Algeria,NORTHERN AFRICA,32930091,2381740,13.8,0.04,-0.39,31.0,6000.0,70.0,78.1,3.22,0.25,96.53,1.0,17.14,4.61,0.101,0.6,0.298
3,American Samoa,OCEANIA,57794,199,290.4,58.29,-20.71,9.27,8000.0,97.0,259.5,10.0,15.0,75.0,2.0,22.46,3.27,0.150844,0.282711,0.565283
4,Andorra,WESTERN EUROPE,71201,468,152.1,0.0,6.6,4.05,19000.0,100.0,497.2,2.22,0.0,97.78,3.0,8.71,6.25,0.150844,0.282711,0.565283


Nuestra base de datos ya está lista para el EDA, por lo que la guardaremos en la carpeta ___lab00 > data > 02_intermediate___

In [29]:
data.to_csv("countries_of_the_world_clean.csv")

***

***