# Desafío - Gráficos
## Cristian Vidal

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
df = pd.read_csv('qog_std_cs_jan18.csv');

### 1. Genere una submuestra de casos

* Utilice los últimos 4 dígitos de su rut como semilla pseudoaleatoria

In [11]:
semilla_pseudoaleatoria = 4968

* Seleccione el 50% de los casos
* Cada base generada debe contener los siguientes elementos:
    * El índice de desarrollo humano ( undp_hdi )
    * El nombre del país ( ccodealp )
    * La región a la que pertenece ( ht_region )
    * El PIB per capita. ( gle_cgdpc )
    * El total de la población ( imf_pop )
* Si su apellido está entre la N y la Z, escoja las siguientes variables del módulo Salud:
    * wef_imort : Infant mortality, deaths/1000 live births
    * who_alc2000 : Alcohol consumption per capita (2000-)
    * who_tobt : Current smoking of any tobacco product (Total).
    * wdi_exph : Government expenditure on health, total (% of GDP)
* Guarde esta tabla procesada en un nuevo objeto

In [19]:
submuestra_pseudoaleatoria = df.sample(frac=0.5, random_state=semilla_pseudoaleatoria)
submuestra = submuestra_pseudoaleatoria.loc[:,['undp_hdi', 'ccodealp', 'ht_region', 
                                                'gle_cgdpc', 'imf_pop', 'wef_imort',
                                                'who_alc2000', 'who_tobt', 'wdi_exph']]

In [48]:
submuestra.sample(10)

Unnamed: 0,undp_hdi,ccodealp,ht_region,gle_cgdpc,imf_pop,wef_imort,who_alc2000,who_tobt,wdi_exph,region_recod
186,0.918,USA,5,47769.699,318.789001,6.0,8.82,18.1,17.140755,WesternDem
40,0.59,COG,4,2369.8401,,,3.82,18.5,5.151412,SubSaharian
35,0.845,CHL,2,15519.08,17.819,7.8,7.16,38.900002,7.785858,LatAm
5,0.784,ATG,10,12257.71,,,8.56,,5.541683,Caribbean
101,0.896,LUX,5,61404.48,0.55,1.7,11.12,24.4,6.937873,WesternDem
42,0.775,CRI,2,9485.71,,8.6,3.45,14.2,9.313112,LatAm
176,0.723,TUN,3,6912.2798,,13.8,1.39,,7.003858,NorthAfrica
33,0.764,LKA,8,5466.8701,20.541,8.3,2.37,14.1,3.50335,SouthAsia
130,0.783,PLW,9,9392.5996,0.018,,,,9.021533,Pacific
36,0.734,CHN,6,9283.3799,,12.1,5.78,25.9,5.548228,EastAsia


#### Renombre las categorías de la variable ht_region de números a regiones

In [21]:
submuestra['region_recod'] = submuestra['ht_region'].replace([1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
                                                            ['EastEurope', 'LatAm', 'NorthAfrica',
                                                            'SubSaharian', 'WesternDem', 'EastAsia',
                                                            'SouthEastAsia','SouthAsia','Pacific', 
                                                            'Caribbean' ])

### 2. Genere una función que ingrese su objeto y devuelva:

* Por cada variable existente en su objeto, calcule las medidas descriptivas para los casos contínuos
* Para cada variable discreta, que calcule la frecuencia.

In [44]:
def calcular_medidas_descriptivas(objeto):
    """
    calcular_medidas_descriptivas:
        Función que permite calcular las medidas descriptivas para los casos contínuos 
        o la frecuencias absolutas para las variables discretas.
    parameters:
        objeto: objeto tipo DataFrame
    returns:
        medidas descriptivas o frecuencias absolutas
    """
    
    variables_continuas = ['float64', 'int64']
    variables_discretas = ['object']
    
    for nombre_columna, serie in objeto.iteritems():
        if isinstance(serie, pd.Series):
            print(nombre_columna)
            print('*******************************')
            if serie.dtype in variables_continuas:
                # vamos a eliminar los datos perdidos en la columna
                serie = serie.dropna()
                print(round(serie.describe(),2))
            if serie.dtype in variables_discretas:
                print(serie.value_counts())

In [45]:
calcular_medidas_descriptivas(submuestra)

undp_hdi
*******************************
count    94.00
mean      0.71
std       0.14
min       0.40
25%       0.60
50%       0.74
75%       0.80
max       0.95
Name: undp_hdi, dtype: float64
ccodealp
*******************************
NLD    1
MDG    1
BDI    1
SVN    1
GIN    1
HRV    1
BEN    1
SUR    1
SDN    1
TLS    1
USA    1
CHL    1
PRT    1
BHS    1
GHA    1
PNG    1
BRN    1
TON    1
AZE    1
KGZ    1
TTO    1
GAB    1
BLR    1
ISL    1
BIH    1
MLT    1
DOM    1
ZAF    1
GTM    1
KHM    1
      ..
CRI    1
UGA    1
BFA    1
CHN    1
TUN    1
OMN    1
NGA    1
POL    1
STP    1
KIR    1
UKR    1
GRD    1
GUY    1
HTI    1
ROU    1
ATG    1
MEX    1
LKA    1
LIE    1
EGY    1
NOR    1
COG    1
TWN    1
KWT    1
MKD    1
LCA    1
COL    1
AUT    1
MCO    1
LBR    1
Name: ccodealp, Length: 97, dtype: int64
ht_region
*******************************
count    97.00
mean      4.47
std       2.81
min       1.00
25%       2.00
50%       4.00
75%       5.00
max      10.00
Name: ht_region

#### Reporte las estadísticas descriptivas para gle_cgdpc , undp_hdi , imf_pop .

#####  gle_cgdpc

* El promedio PIB per capita es de aproximadamente 16390.70.
* El 50% de los paises tienen un PIB per capita  menor que o igual a 9051.72, mientras que el otro 50% de los paises tienen un PIB per capita mayor que o igual a 9051.72.
* El PIB per capita de los paises de la muestra tiene una desviación, en promedio de 21470.27 respecto a la media.

##### undp_hdi

* El promedio del índice de desarrollo humano es de aproximadamente 0.71.
* El 50% de los paises tienen un índice de desarrollo humano menor que o igual a 0.74, mientras que el otro 50% de los paises tienen un índice de desarrollo humano mayor que o igual a 0.74.
* El índice de desarrollo humano de los paises de la muestra tiene una desviación, en promedio de 0.14 respecto a la media.

##### imf_pop

* El promedio del total de la población es de aproximadamente 22.37.
* El 50% de los paises tienen un total de la población menor que o igual a 4.38, mientras que el otro 50% de los paises tienen un total de la población mayor que o igual a 4.38.
* El total de la población de los paises de la muestra tiene una desviación, en promedio de 50.32 respecto a la media.

### 3. Genere una función que liste las observaciones perdidas de una variable

### 4. Grafique los histogramas

### 5. Genere una función que devuelva un dotplot