## Reading and manipulating datasets with Pandas

This notebook shows how to read CSV files with pandas and apply common SQL operations

**Author:** Roberto Muñoz <br />
**Email:** rmunoz@uc.cl

In [15]:
import numpy as np
import pandas as pd
from unidecode import unidecode

from __future__ import print_function

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.width', None)
pd.set_option('max_colwidth', 200)

In [16]:
regiones_file='data/chile_regiones.csv'
provincias_file='data/chile_provincias.csv'
comunas_file='data/chile_comunas.csv'

regiones=pd.read_csv(regiones_file, header=0, sep=',', encoding="utf-8")
regiones.loc[:,'RegionNombre']=regiones.apply(lambda x: x['RegionNombre'].replace("'",""), axis=1)
provincias=pd.read_csv(provincias_file, header=0, sep=',', encoding="utf-8")
provincias.loc[:,'ProvinciaNombre']=provincias.apply(lambda x: x['ProvinciaNombre'].replace("'",""), axis=1)
comunas=pd.read_csv(comunas_file, header=0, sep=',', encoding="utf-8")
comunas.loc[:,'ComunaNombre']=comunas.apply(lambda x: x['ComunaNombre'].replace("'",""), axis=1)

In [17]:
print('regiones table: ', regiones.columns.values.tolist())
print('provincias table: ', provincias.columns.values.tolist())
print('comunas table: ', comunas.columns.values.tolist())

regiones table:  [u'RegionID', u'RegionNombre', u'RegionOrdinal']
provincias table:  [u'ProvinciaID', u'ProvinciaNombre', u'RegionID']
comunas table:  [u'ComunaID', u'ComunaNombre', u'ProvinciaID']


In [18]:
regiones.head()

Unnamed: 0,RegionID,RegionNombre,RegionOrdinal
0,1,Arica y Parinacota,'XV'
1,2,Tarapacá,'I'
2,3,Antofagasta,'II'
3,4,Atacama,'III'
4,5,Coquimbo,'IV'


In [19]:
provincias.head()

Unnamed: 0,ProvinciaID,ProvinciaNombre,RegionID
0,1,Arica,1
1,2,Parinacota,1
2,3,Iquique,2
3,4,El Tamarugal,2
4,5,Antofagasta,3


In [20]:
comunas.head()

Unnamed: 0,ComunaID,ComunaNombre,ProvinciaID
0,1,Arica,1
1,2,Camarones,1
2,3,General Lagos,2
3,4,Putre,2
4,5,Alto Hospicio,3


In [21]:
regiones_provincias=pd.merge(regiones, provincias, how='outer')
regiones_provincias.head()

Unnamed: 0,RegionID,RegionNombre,RegionOrdinal,ProvinciaID,ProvinciaNombre
0,1,Arica y Parinacota,'XV',1,Arica
1,1,Arica y Parinacota,'XV',2,Parinacota
2,2,Tarapacá,'I',3,Iquique
3,2,Tarapacá,'I',4,El Tamarugal
4,3,Antofagasta,'II',5,Antofagasta


In [22]:
provincias_comunas=pd.merge(provincias, comunas, how='outer')
provincias_comunas.head()

Unnamed: 0,ProvinciaID,ProvinciaNombre,RegionID,ComunaID,ComunaNombre
0,1,Arica,1,1,Arica
1,1,Arica,1,2,Camarones
2,2,Parinacota,1,3,General Lagos
3,2,Parinacota,1,4,Putre
4,3,Iquique,2,5,Alto Hospicio


In [31]:
regiones_provincias_comunas=pd.merge(regiones_provincias, comunas, how='outer')
regiones_provincias_comunas.index.name='ID'
regiones_provincias_comunas.sort_values(by=['RegionNombre','ComunaNombre'])
regiones_provincias_comunas.head()

Unnamed: 0_level_0,RegionID,RegionNombre,RegionOrdinal,ProvinciaID,ProvinciaNombre,ComunaID,ComunaNombre
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,1,Arica y Parinacota,'XV',1,Arica,1,Arica
1,1,Arica y Parinacota,'XV',1,Arica,2,Camarones
2,1,Arica y Parinacota,'XV',2,Parinacota,3,General Lagos
3,1,Arica y Parinacota,'XV',2,Parinacota,4,Putre
4,2,Tarapacá,'I',3,Iquique,5,Alto Hospicio


In [32]:
regiones_provincias_comunas.to_csv('chile_demographic_data.csv', index=False, encoding="utf-8")

In [39]:
surveygizmo=regiones_provincias_comunas.sort_values(['RegionID','ComunaNombre'])
surveygizmo=surveygizmo[['RegionNombre','ComunaNombre']]
surveygizmo.loc[:,'RegionNombre']=surveygizmo.apply(lambda x: x['RegionNombre'].replace("'",""), axis=1)
surveygizmo.loc[:,'ComunaNombre']=surveygizmo.apply(lambda x: x['ComunaNombre'].replace("'",""), axis=1)

surveygizmo.rename(columns={'RegionNombre': 'Region:', 'ComunaNombre': 'Comuna:'}, inplace=True)
surveygizmo.to_csv('chile_demographic_surveygizmo.csv', index=False, encoding="utf-8")

## OLD

In [33]:
surveygizmo=regiones_provincias_comunas[['RegionNombre','ProvinciaNombre','ComunaNombre']]
surveygizmo.loc[:,'RegionNombre']=surveygizmo.apply(lambda x: x['RegionNombre'].replace("'",""), axis=1)
surveygizmo.loc[:,'ProvinciaNombre']=surveygizmo.apply(lambda x: x['ProvinciaNombre'].replace("'",""), axis=1)
surveygizmo.loc[:,'ComunaNombre']=surveygizmo.apply(lambda x: x['ComunaNombre'].replace("'",""), axis=1)

surveygizmo.rename(columns={'RegionNombre': 'Region:', 'ProvinciaNombre': 'Provincia:', 'ComunaNombre': 'Comuna:'}, inplace=True)
surveygizmo.to_csv('chile_demographic_surveygizmo.csv', index=False, encoding="utf-8")

In [34]:
surveygizmo.head()

Unnamed: 0_level_0,Region:,Provincia:,Comuna:
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Arica y Parinacota,Arica,Arica
1,Arica y Parinacota,Arica,Camarones
2,Arica y Parinacota,Parinacota,General Lagos
3,Arica y Parinacota,Parinacota,Putre
4,Tarapacá,Iquique,Alto Hospicio


## Preparing SurveyMonkey survey

In [35]:
print(regiones['RegionNombre'])

0                            Arica y Parinacota
1                                      Tarapacá
2                                   Antofagasta
3                                       Atacama
4                                      Coquimbo
5                                    Valparaiso
6                     Metropolitana de Santiago
7         Libertador General Bernardo O\Higgins
8                                         Maule
9                                        Biobío
10                                 La Araucanía
11                                     Los Ríos
12                                    Los Lagos
13    Aisén del General Carlos Ibáñez del Campo
14         Magallanes y de la Antártica Chilena
Name: RegionNombre, dtype: object


In [36]:
print(regiones_provincias_comunas['RegionNombre']+' - '+regiones_provincias_comunas['ComunaNombre'])

ID
0                                              Arica y Parinacota - Arica
1                                          Arica y Parinacota - Camarones
2                                      Arica y Parinacota - General Lagos
3                                              Arica y Parinacota - Putre
4                                                Tarapacá - Alto Hospicio
5                                                      Tarapacá - Iquique
6                                                       Tarapacá - Camiña
7                                                     Tarapacá - Colchane
8                                                        Tarapacá - Huara
9                                                         Tarapacá - Pica
10                                                Tarapacá - Pozo Almonte
11                                              Antofagasta - Antofagasta
12                                               Antofagasta - Mejillones
13                                 