Procesamiento de datos usando Pandas (Caso Práctico) 
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/fundamentos-de-analitica/blob/master/04-pandas-caso-practico.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-data-science/blob/master/04-pandas-caso-practico.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/fundamentos-de-analitica/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/fundamentos-de-analitica/blob/master/readme.md)

El archivo 'files/indicadores-mundiales.csv' contiene información sobre distintos indicadores económicos. Se desean construir indicadores a partir de la información contenida.

En este caso práctico se usará la librería pandas de Python, la cual contiene funcionalidades que permiten emular muchos de los comandos del lenguaje SQL.

In [None]:
data = open('files/indicadores-mundiales.csv', mode='r', encoding='latin-1', ).readlines()
data = [line.replace(' ', '_') for line in data]
data = [line[:-1] for line in data]
data = [line.split(';') for line in data]
data = [data[0]] + [[x.replace('.', '')  for x in line]  for line in data[1:]]
data = [data[0]] + [[x.replace('$', '')  for x in line]  for line in data[1:]]
data = [data[0]] + [[x.replace('%', '')  for x in line]  for line in data[1:]]
data = [data[0]] + [[x.replace(',', '.') for x in line]  for line in data[1:]]
data = [data[0]] + [[float(x) if x.replace('.', '').isdigit() else x for x in line]  for line in data[1:]]


data[0:3]

In [None]:
nombres_campos = data[0]

datadir = {}

for icampo, campo in enumerate(nombres_campos):
    columna = []
    for line in data[1:]:
        columna += [line[icampo]]
    datadir[campo] = columna.copy()
   

In [None]:
datadir['Region'][0:10]

In [None]:
datadir.keys()

In [None]:
print("Nombres de las columnas")
print("--------------------------")
for colname in datadir.keys():
    print("  ", colname)

# Python STL

In [None]:
##
## Lea el archivo en formato CSV.
##
data = open('files/indicadores-mundiales.csv', mode='r', encoding='latin-1', ).readlines()
data = [line[:-1] for line in data]
data = [line.split(';') for line in data]
data = [data[0]] + [[x.replace('.', '')  for x in line]  for line in data[1:]]
data = [data[0]] + [[x.replace('$', '')  for x in line]  for line in data[1:]]
data = [data[0]] + [[x.replace('%', '')  for x in line]  for line in data[1:]]
data = [data[0]] + [[x.replace(',', '.') for x in line]  for line in data[1:]]
data = [[float(x) if x.replace('.', '').isdigit() else x for x in line]  for line in data[1:]]
data[0:3]

In [None]:
##
## obtener un listado de los paises (nombres únicos)
##
paises = set([line[11] for line in data])
paises = [pais for pais in paises]

In [None]:
max([len(pais) for pais in paises])

In [None]:
[pais for pais in paises if len(pais) == 40]

In [None]:
poblacion = [line[15] for line in data]
p = [posicion for posicion, valor in enumerate(poblacion) if valor == max(poblacion)]

In [None]:
paises = [line[11] for line in data]
[paises[index] for index in p]

In [None]:
##
## forma alternativa de leerlo
##
import csv
data = []
with open('files/indicadores-mundiales.csv', encoding='latin-1') as csvfile:
    myreader = csv.reader(csvfile, delimiter=';', quotechar='"')
    for row in myreader:
        data.append(row)
data[0:5]

In [None]:
##
## Imprima los nombres de las columnas.
##


In [None]:
##
## Imprima un listado de los continentes.
##


In [None]:
##
## ¿Cuáles países tienen un uso de celulares diferente de cero?
##


# Usando Pandas

In [None]:
import pandas as pd

In [None]:
##
## Lea el archivo en formato CSV.
##


In [None]:
## 
## Cuántos registros tiene el archivo?
##


In [None]:
##
## Cuántos registros nulos tiene el archivo?
##


In [None]:
##
## Cuántos registros tienen información completa?
##


In [None]:
##
## Imprima los nombres de las columnas.
##


In [None]:
##
## Organice la tabla por gastos en salud (per capita).
##


In [None]:
##
## Imprima un listado de los continentes.
##


In [None]:
##
## Imprima el listado de los países que empiezan por la letra m.
##


In [None]:
##
## ¿Cuáles países tienen un uso de celulares diferente de cero?
##


In [None]:
##
## ¿Cuáles son los países con menor uso de energía?
##


In [None]:
##
## ¿Cuáles son los países con mayor uso de energía?
##


In [None]:
##
## ¿Cuánto son las emisiones de CO2 por continente?
##


In [None]:
##
## ¿Cuánto es el promedio de las emisiones de CO2 por continente?
##


In [None]:
##
## Comparé la esperanza de vida de hombres y mujeres
## por continente.
##


In [None]:
##
## ¿Cuál es el país con más gastos de salud por continente?
##


In [None]:
##
## ¿Cuál es el país con mayor cantidad de poblacion entre 0-14 años?
##

In [None]:
##
## ¿Cuál son los cinco países con menor cantidad de población entre 0 y 64 años?
##


In [None]:
##
## ¿Cuáles son los países con mayor población rural por contiente?
##


---

Procesamiento de datos usando Pandas (Caso Práctico) 
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/fundamentos-de-analitica/blob/master/04-pandas-caso-practico.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-data-science/blob/master/04-pandas-caso-practico.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/fundamentos-de-analitica/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/fundamentos-de-analitica/blob/master/readme.md)