# Proyecto 2 - Análisis de datos Censo 2017

**Autor:** Simón Ángel <br />
**E-mail:** <saangel@uc.cl> <br />
**Github:** <https://github.com/saangel> <br />

El miércoles 19 de abril de 2017, organizado por el Instituto Nacional de Estadísticas (INE), se llevó a cabo en nuestro país el Censo de Población y Vivienda, donde cerca de 550000 participantes contaron y caracterizaron a más de 17500000 personas, en casi 6500000 viviendas.

En este proyecto, analizaremos los datos entregados por el INE.

Primero, cargaremos los paquetes necesarios:

In [13]:
import numpy as np
import pandas as pd
pd.__version__

u'0.23.3'

Luego, cargaremos los datos a utilizar. El archivo es pesado (~180 MB), así que este paso puede tomar un poco de tiempo.

In [2]:
censfile = "https://metriclearning.blob.core.windows.net/tallerpython/Microdato_Censo2017-Hogares.csv"
censdata = pd.read_csv(censfile,header=0,sep=",")

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

El índice es un objeto tipo arreglo, con su nombre de tipo igual a `pd.Index`, el que discutiremos en más detalle.

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
help(pd.RangeIndex)

Help on class RangeIndex in module pandas.core.indexes.range:

class RangeIndex(pandas.core.indexes.numeric.Int64Index)
 |  Immutable Index implementing a monotonic integer range.
 |  
 |  RangeIndex is a memory-saving special case of Int64Index limited to
 |  representing monotonic ranges. Using RangeIndex may in some instances
 |  improve computing speed.
 |  
 |  This is the default index type used
 |  by DataFrame and Series when no explicit index is provided by the user.
 |  
 |  Parameters
 |  ----------
 |  start : int (default: 0), or other RangeIndex instance.
 |      If int and "stop" is not given, interpreted as "stop" instead.
 |  stop : int (default: 0)
 |  step : int (default: 1)
 |  name : object, optional
 |      Name to be stored in the index
 |  copy : bool, default False
 |      Unused, accepted for homogeneity with other index types.
 |  
 |  See Also
 |  --------
 |  Index : The base pandas Index type
 |  Int64Index : Index of int64 data
 |  
 |  Attributes
 |  ---

Al igual que con un arreglo NumPy, los datos pueden ser accedidos por el índice asociado, a través de la notación de brackets o paréntesis cuadrados:

In [6]:
pd.RangeIndex(0,10,2)

RangeIndex(start=0, stop=10, step=2)

In [7]:
data[3]

1.0

In [8]:
data[[0,2]]

0    0.25
2    0.75
dtype: float64

### Series como un arreglo NumPy generalizado

De lo que hemos visto hasta ahora, puede parecer que el objeto `Series` es básicamente intercambiable con un arreglo unidimensional NumPy. **La diferencia esencial es la presencia del índice**: mientras que el arreglo NumPy tiene un índice entero implícitamente definido, usado para acceder a los valores, la serie Pandas tiene un índice explícitamente definido con los valores.

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['2018-02-01', '2018-02-02', 'c', 'd'])
data

2018-02-01    0.25
2018-02-02    0.50
c             0.75
d             1.00
dtype: float64

Y el acceso a los ítemes funciona como es esperado:

In [10]:
data['2018-02-01':'2018-02-03']

2018-02-01    0.25
2018-02-02    0.50
dtype: float64

### Series como diccionario especializado

In this way, you can think of a Pandas Series a bit like a specialization of a Python dictionary. A dictionary is a structure that maps arbitrary keys to a set of arbitrary values, and a Series is a structure which maps typed keys to a set of typed values. This typing is important: just as the type-specific compiled code behind a NumPy array makes it more efficient than a Python list for certain operations, the type information of a Pandas Series makes it much more efficient than Python dictionaries for certain operations.

De esta manera, se puede pensar en una `Series`Pandas un poco como una especialización de un diccionario Python. Un diccionario es una estructira que mapea llaves arbitrarias a un conjunto de valores arbitrarios, y una serie es una estructura que mapea llaves tipadas a un conjunto de valores tipados. Este tipado (la exigencia de un tipo definido de dato) es importante: así como el código específico de tipos compilado detrás de un arreglo Numpy lo hace más eficiente que una lista Python para ciertas operaciones, la información de tipo de datos de una serie Pandas la hace mucho más eficiente que los diccionarios Python para ciertas operaciones.

In [11]:
population_dict = {'Arica y Parinacota': 243149,
                   'Antofagasta': 631875,
                   'Metropolitana de Santiago': 7399042,
                   'Valparaiso': 1842880,
                   'Bíobío': 2127902,
                   'Magallanes y Antártica Chilena': 165547}
population = pd.Series(population_dict)
population

Antofagasta                        631875
Arica y Parinacota                 243149
Bíobío                            2127902
Magallanes y Antártica Chilena     165547
Metropolitana de Santiago         7399042
Valparaiso                        1842880
dtype: int64

You can notice the indexes were sorted lexicographically. That's the default behaviour in Pandas

In [12]:
population['Arica y Parinacota']

243149

Unlike a dictionary, though, the Series also supports array-style operations such as slicing:

In [None]:
population['Metropolitana':'Arica y Parinacota']

## 2. DataFrame

La siguiente estructura fundamental en Pandas es el **`DataFrame`**. Como el objeto `Series` discutido en la sección anterior, el `DataFrame` puede pensarse ya sea como una generalización del arreglo NumPy, o como una especialización de un diccionario Python. Lo miraremos desde ambas perspectivas.

### DataFrame como un arreglo NumPy generalizado

Si una `Series` es el análogo de un arreglo unidimensional con índices flexibles, un `DataFrame` es el análogo de un arreglo bidimensional con índices de fila flexible y nombres de columna flexibles.

In [None]:
# Area in km^2
area_dict = {'Arica y Parinacota': 16873.3,
             'Antofagasta': 126049.1,
             'Metropolitana de Santiago': 15403.2,
             'Valparaiso': 16396.1,
             'Bíobío': 37068.7,
             'Magallanes y Antártica Chilena': 1382291.1}
area = pd.Series(area_dict)
area

Ahora que tenemos esto junto con la serie de población de antes, podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [None]:
pd.DataFrame(pd.Series(population_dict))

In [None]:
regions = pd.DataFrame({'population': population,
                       'area': area})
regions

In [None]:
regions['densidad'] = regions['population']/regions['area']

In [None]:
regions[ ['population','area','densidad'] ]

In [None]:
regions['densidad']['Antofagasta']

In [None]:
regions['densidad']

In [None]:
regions.index

In [None]:
regions.columns

### DataFrame como diccionario especializado

Similarmente, podemos pensar el `DataFrame` como la especialización de un diccionario. Donde un diccionario mapea una llave a un valor, un `DataFrame` mapea un nombre de columna a una serie de datos de columna. Por ejemplo, preguntar por el atributo 'área' retorna el objeto Serie conteniendo las áreas que vimos antes:

In [None]:
regions['area']

In [None]:
regions['population']

### Construyendo objetos DataFrame
Un `DataFrame` Pandas puede ser construido de una variedad de formas. Veremos algunos ejemplos.

### Desde un único objeto `Series`
Un `DataFrame` es una colección de objetos `Series`, y un `DataFrame` de una sóla columna puede ser construido de una serie individual:

In [None]:
pd.DataFrame(population, columns=['poblacion'])
pd.DataFrame(area, columns=['superficie'])

### Desde un diccionario de objetos `Series`
Como vimos antes, un `DataFrame` puede ser construido a partir de un diccionario de objetos `Series` también:

In [None]:
pd.DataFrame({'poblacion': population,
              'area': area}, columns=['poblacion', 'area'])

## 3. Leyendo un archivo CSV y haciendo operaciones comunes Pandas

In [None]:
regiones_file='data/chile_regiones.csv'
provincias_file='data/chile_provincias.csv'
comunas_file='data/chile_comunas.csv'

regiones=pd.read_csv(regiones_file, header=0, sep=',')
provincias=pd.read_csv(provincias_file, header=0, sep=',')
comunas=pd.read_csv(comunas_file, header=0, sep=',')

In [None]:
regiones

In [None]:
regions.columns.values.tolist()

In [None]:
print('regiones table: ', regiones.columns.values.tolist())
#print('provincias table: ', provincias.columns.values.tolist())
#print('comunas table: ', comunas.columns.values.tolist())

In [None]:
regiones.head()

In [None]:
provincias.head()

In [None]:
comunas.head(10)

In [None]:
comunas.sort_values('ComunaNombre').head()

In [None]:
comunas.describe()

In [None]:
regiones.head()

In [None]:
provincias.head()

In [None]:
help(pd.merge)

In [None]:
regiones_provincias = pd.merge(regiones, provincias, how='outer')
regiones_provincias.head(30)

In [None]:
provincias_comunas=pd.merge(provincias, comunas, how='outer')
provincias_comunas.head()

In [None]:
regiones_provincias_comunas=pd.merge(regiones_provincias, comunas, how='outer')
regiones_provincias_comunas.index.name='ID'
regiones_provincias_comunas.head()

In [None]:
regiones_provincias_comunas[ regiones_provincias_comunas['ComunaNombre']=="'Arica'" ]

In [None]:
regiones_provincias_comunas.loc[4]

In [None]:
regiones_provincias_comunas.to_csv('data/chile_demographic_merge.csv', index=False)

In [None]:
regiones_provincias_comunas.loc[1,"ComunaNombre"]

## 4. Loading ful dataset

In [None]:
data_file='data/chile_demographic.csv'
data=pd.read_csv(data_file, header=0, sep=',')
data.head()

In [None]:
# Podemos ordenar el dataframe usando el campo Poblacion

data_sort=data.sort_values('Poblacion')
data_sort.head()

In [None]:
# Podemos ordenarlo de mayor a menor

data_sort=data.sort_values('Poblacion', ascending=False)
data_sort.head()

In [None]:
(data.groupby(data['Region'])['Poblacion','Superficie'].sum())

In [None]:
x=data.groupby(data['Region'])
x['Poblacion','Superficie'].sum()

In [None]:
(data.groupby(data['Region'])['Poblacion','Superficie'].sum()) \
    .sort_values(['Poblacion'])