# Introducción a Pandas

**Autor:** Roberto Muñoz <br />
**E-mail:** <rmunoz@metricarts.com> <br />
**Github:** <https://github.com/rpmunoz> <br />

[Pandas](http://pandas.pydata.org/) es un paquete de Python que proporciona estructuras de datos similares a los dataframes de R. Pandas depende de Numpy, la librería que añade un potente tipo matricial a Python. Los principales tipos de datos que pueden representarse con pandas son:

- Datos tabulares con columnas de tipo heterogéneo con etiquetas en columnas y filas.
- Series temporales.

Pandas proporciona herramientas que permiten:

- leer y escribir datos en diferentes formatos: CSV, Microsoft Excel, bases SQL y formato HDF5
- seleccionar y filtrar de manera sencilla tablas de datos en función de posición, valor o etiquetas
- fusionar y unir datos
- transformar datos aplicando funciones tanto en global como por ventanas
- manipulación de series temporales
- hacer gráficas

En pandas existen tres tipos básicos de objetos todos ellos basados a su vez en Numpy:

- Series (listas, 1D),
- DataFrame (tablas, 2D) y
- Panels (tablas 3D).

In [1]:
import numpy as np
import pandas as pd
#pd.__version__

## 1.  Series

Una serie (o *Series*) Pandas es un arreglo unidimensional de datos indexados. Puede ser creado desde una lista o arreglo como sigue:

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como vemos en la salida, la Serie contiene una secuencia de valores y una secuencia de índices, las cuales podemos acceder con los atributos `values` y `index`. Los valores son simplemente un familiar arreglo NumPy:

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

El índice es un objeto tipo arreglo, con su nombre de tipo igual a `pd.Index`, el que discutiremos en más detalle.

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
#help(pd.RangeIndex)

Al igual que con un arreglo NumPy, los datos pueden ser accedidos por el índice asociado, a través de la notación de brackets o paréntesis cuadrados:

In [6]:
pd.RangeIndex(0,10,2)

RangeIndex(start=0, stop=10, step=2)

In [7]:
list(pd.RangeIndex(0,10,2))

[0, 2, 4, 6, 8]

In [8]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [12]:
data[3]

1.0

In [10]:
data[[0,2]]

0    0.25
2    0.75
dtype: float64

### Series como un arreglo NumPy generalizado

De lo que hemos visto hasta ahora, puede parecer que el objeto `Series` es básicamente intercambiable con un arreglo unidimensional NumPy. **La diferencia esencial es la presencia del índice**: mientras que el arreglo NumPy tiene un índice entero implícitamente definido, usado para acceder a los valores, la serie Pandas tiene un índice explícitamente definido con los valores.

In [15]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['2018-02-01', '2018-02-02', 'c', 'd'])
data

2018-02-01    0.25
2018-02-02    0.50
c             0.75
d             1.00
dtype: float64

Y el acceso a los ítemes funciona como es esperado:

In [18]:
data['2018-02-01':'d']

2018-02-01    0.25
2018-02-02    0.50
c             0.75
d             1.00
dtype: float64

In [3]:
import datetime

date1 = '2011-05-03'
date2 = '2011-05-10'
start = datetime.datetime.strptime(date1, '%Y-%m-%d')
end = datetime.datetime.strptime(date2, '%Y-%m-%d')
step = datetime.timedelta(days=1)

while start <= end:
    print(start.date())
    start += step
    print(type(start))


2011-05-03
<class 'datetime.datetime'>
2011-05-04
<class 'datetime.datetime'>
2011-05-05
<class 'datetime.datetime'>
2011-05-06
<class 'datetime.datetime'>
2011-05-07
<class 'datetime.datetime'>
2011-05-08
<class 'datetime.datetime'>
2011-05-09
<class 'datetime.datetime'>
2011-05-10
<class 'datetime.datetime'>


### Series como diccionario especializado

In this way, you can think of a Pandas Series a bit like a specialization of a Python dictionary. A dictionary is a structure that maps arbitrary keys to a set of arbitrary values, and a Series is a structure which maps typed keys to a set of typed values. This typing is important: just as the type-specific compiled code behind a NumPy array makes it more efficient than a Python list for certain operations, the type information of a Pandas Series makes it much more efficient than Python dictionaries for certain operations.

De esta manera, se puede pensar en una `Series`Pandas un poco como una especialización de un diccionario Python. Un diccionario es una estructira que mapea llaves arbitrarias a un conjunto de valores arbitrarios, y una serie es una estructura que mapea llaves tipadas a un conjunto de valores tipados. Este tipado (la exigencia de un tipo definido de dato) es importante: así como el código específico de tipos compilado detrás de un arreglo Numpy lo hace más eficiente que una lista Python para ciertas operaciones, la información de tipo de datos de una serie Pandas la hace mucho más eficiente que los diccionarios Python para ciertas operaciones.

In [6]:
population_dict = {'Arica y Parinacota': 243149,
                   'Antofagasta': 631875,
                   'Metropolitana de Santiago': 7399042,
                   'Valparaiso': 1842880,
                   'Bíobío': 2127902,
                   'Magallanes y Antártica Chilena': 165547}

population = pd.Series(population_dict)
population

Arica y Parinacota                 243149
Antofagasta                        631875
Metropolitana de Santiago         7399042
Valparaiso                        1842880
Bíobío                            2127902
Magallanes y Antártica Chilena     165547
dtype: int64

You can notice the indexes were sorted lexicographically. That's the default behaviour in Pandas

In [9]:
population['Arica y Parinacota']

243149

Unlike a dictionary, though, the Series also supports array-style operations such as slicing:

In [None]:
population['Arica y Parinacota':'Metropolitana de Santiago']

## 2. DataFrame

La siguiente estructura fundamental en Pandas es el **`DataFrame`**. Como el objeto `Series` discutido en la sección anterior, el `DataFrame` puede pensarse ya sea como una generalización del arreglo NumPy, o como una especialización de un diccionario Python. Lo miraremos desde ambas perspectivas.

### DataFrame como un arreglo NumPy generalizado

Si una `Series` es el análogo de un arreglo unidimensional con índices flexibles, un `DataFrame` es el análogo de un arreglo bidimensional con índices de fila flexible y nombres de columna flexibles.

In [16]:
# Area in km^2
area_dict = {'Arica y Parinacota': 16873.3,
             'Antofagasta': 126049.1,
             'Metropolitana de Santiago': 15403.2,
             'Valparaiso': 16396.1,
             'Bíobío': 37068.7,
             'Magallanes y Antártica Chilena': 1382291.1}
area = pd.Series(area_dict)
area

Arica y Parinacota                  16873.3
Antofagasta                        126049.1
Metropolitana de Santiago           15403.2
Valparaiso                          16396.1
Bíobío                              37068.7
Magallanes y Antártica Chilena    1382291.1
dtype: float64

Ahora que tenemos esto junto con la serie de población de antes, podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [11]:
pd.DataFrame(pd.Series(population_dict))

Unnamed: 0,0
Arica y Parinacota,243149
Antofagasta,631875
Metropolitana de Santiago,7399042
Valparaiso,1842880
Bíobío,2127902
Magallanes y Antártica Chilena,165547


In [19]:
regions = pd.DataFrame({'population': population,
                       'area': area})
regions

Unnamed: 0,population,area
Arica y Parinacota,243149,16873.3
Antofagasta,631875,126049.1
Metropolitana de Santiago,7399042,15403.2
Valparaiso,1842880,16396.1
Bíobío,2127902,37068.7
Magallanes y Antártica Chilena,165547,1382291.1


In [20]:
regions['densidad'] = regions['population']/regions['area']

In [21]:
regions

Unnamed: 0,population,area,densidad
Arica y Parinacota,243149,16873.3,14.410281
Antofagasta,631875,126049.1,5.012928
Metropolitana de Santiago,7399042,15403.2,480.357458
Valparaiso,1842880,16396.1,112.39746
Bíobío,2127902,37068.7,57.404279
Magallanes y Antártica Chilena,165547,1382291.1,0.119763


In [25]:
nuevo = regions[ ['population','area'] ]
nuevo

Unnamed: 0,population,area
Arica y Parinacota,243149,16873.3
Antofagasta,631875,126049.1
Metropolitana de Santiago,7399042,15403.2
Valparaiso,1842880,16396.1
Bíobío,2127902,37068.7
Magallanes y Antártica Chilena,165547,1382291.1


In [22]:
regions['densidad']['Antofagasta']

5.0129275020607045

In [33]:
regions['densidad']
#print(type(regions['densidad']))

Arica y Parinacota                 14.410281
Antofagasta                         5.012928
Metropolitana de Santiago         480.357458
Valparaiso                        112.397460
Bíobío                             57.404279
Magallanes y Antártica Chilena      0.119763
Name: densidad, dtype: float64

In [44]:
tabla = pd.DataFrame(regions['densidad'])
tabla
#tabla.index

Unnamed: 0,densidad
Arica y Parinacota,14.410281
Antofagasta,5.012928
Metropolitana de Santiago,480.357458
Valparaiso,112.39746
Bíobío,57.404279
Magallanes y Antártica Chilena,0.119763


In [40]:
tabla['densidad']['Antofagasta']

5.0129275020607045

In [47]:
tabla.iloc(0)

<pandas.core.indexing._iLocIndexer at 0x12251f2c8>

In [None]:
regions.index

In [None]:
regions.columns

### DataFrame como diccionario especializado

Similarmente, podemos pensar el `DataFrame` como la especialización de un diccionario. Donde un diccionario mapea una llave a un valor, un `DataFrame` mapea un nombre de columna a una serie de datos de columna. Por ejemplo, preguntar por el atributo 'área' retorna el objeto Serie conteniendo las áreas que vimos antes:

In [None]:
regions['area']

In [None]:
regions['population']

### Construyendo objetos DataFrame
Un `DataFrame` Pandas puede ser construido de una variedad de formas. Veremos algunos ejemplos.

### Desde un único objeto `Series`
Un `DataFrame` es una colección de objetos `Series`, y un `DataFrame` de una sóla columna puede ser construido de una serie individual:

In [None]:
pd.DataFrame(population, columns=['poblacion'])
pd.DataFrame(area, columns=['superficie'])

### Desde un diccionario de objetos `Series`
Como vimos antes, un `DataFrame` puede ser construido a partir de un diccionario de objetos `Series` también:

In [None]:
pd.DataFrame({'poblacion': population,
              'area': area}, columns=['poblacion', 'area'])

## 3. Leyendo un archivo CSV y haciendo operaciones comunes Pandas

In [None]:
!cat data/chile_regiones.csv

In [2]:
regiones_file='data/chile_regiones.csv'
provincias_file='data/chile_provincias.csv'
comunas_file='data/chile_comunas.csv'

regiones=pd.read_csv(regiones_file, header=0, sep=',')
provincias=pd.read_csv(provincias_file, header=0, sep=',')
comunas=pd.read_csv(comunas_file, header=0, sep=',')

In [3]:
regiones

Unnamed: 0,RegionID,RegionNombre,RegionOrdinal
0,1,'Arica y Parinacota','XV'
1,2,'Tarapacá','I'
2,3,'Antofagasta','II'
3,4,'Atacama','III'
4,5,'Coquimbo','IV'
5,6,'Valparaiso','V'
6,7,'Metropolitana de Santiago','RM'
7,8,'Libertador General Bernardo O\'Higgins','VI'
8,9,'Maule','VII'
9,10,'Biobío','VIII'


In [None]:
regions.columns.values.tolist()

In [None]:
print('regiones table: ', regiones.columns.values.tolist())
#print('provincias table: ', provincias.columns.values.tolist())
#print('comunas table: ', comunas.columns.values.tolist())

In [7]:
regiones.head()

Unnamed: 0,RegionID,RegionNombre,RegionOrdinal
0,1,'Arica y Parinacota','XV'
1,2,'Tarapacá','I'
2,3,'Antofagasta','II'
3,4,'Atacama','III'
4,5,'Coquimbo','IV'


In [5]:
provincias.head()

Unnamed: 0,ProvinciaID,ProvinciaNombre,RegionID
0,1,'Arica',1
1,2,'Parinacota',1
2,3,'Iquique',2
3,4,'El Tamarugal',2
4,5,'Antofagasta',3


In [8]:
comunas.head(10)

Unnamed: 0,ComunaID,ComunaNombre,ProvinciaID
0,1,'Arica',1
1,2,'Camarones',1
2,3,'General Lagos',2
3,4,'Putre',2
4,5,'Alto Hospicio',3
5,6,'Iquique',3
6,7,'Camiña',4
7,8,'Colchane',4
8,9,'Huara',4
9,10,'Pica',4


In [14]:
comunas.sort_values('ComunaNombre', ascending=False).head()

Unnamed: 0,ComunaID,ComunaNombre,ProvinciaID
114,115,'Ñuñoa',25
237,238,'Ñiquen',37
52,53,'Zapallar',16
249,250,'Yungay',37
216,217,'Yumbel',35


In [None]:
comunas.describe()

In [None]:
regiones.head()

In [None]:
provincias.head()

In [None]:
#help(pd.merge)

In [12]:
regiones_provincias = pd.merge(regiones, provincias, how='outer', on='RegionID')
regiones_provincias.head(30)

Unnamed: 0,RegionID,RegionNombre,RegionOrdinal,ProvinciaID,ProvinciaNombre
0,1,'Arica y Parinacota','XV',1,'Arica'
1,1,'Arica y Parinacota','XV',2,'Parinacota'
2,2,'Tarapacá','I',3,'Iquique'
3,2,'Tarapacá','I',4,'El Tamarugal'
4,3,'Antofagasta','II',5,'Antofagasta'
5,3,'Antofagasta','II',6,'El Loa'
6,3,'Antofagasta','II',7,'Tocopilla'
7,4,'Atacama','III',8,'Chañaral'
8,4,'Atacama','III',9,'Copiapó'
9,4,'Atacama','III',10,'Huasco'


In [15]:
provincias_comunas=pd.merge(provincias, comunas, how='outer')
provincias_comunas.head()

Unnamed: 0,ProvinciaID,ProvinciaNombre,RegionID,ComunaID,ComunaNombre
0,1,'Arica',1,1,'Arica'
1,1,'Arica',1,2,'Camarones'
2,2,'Parinacota',1,3,'General Lagos'
3,2,'Parinacota',1,4,'Putre'
4,3,'Iquique',2,5,'Alto Hospicio'


In [16]:
regiones_provincias_comunas=pd.merge(regiones_provincias, comunas, how='outer')
regiones_provincias_comunas.index.name='ID'
regiones_provincias_comunas.head()

Unnamed: 0_level_0,RegionID,RegionNombre,RegionOrdinal,ProvinciaID,ProvinciaNombre,ComunaID,ComunaNombre
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,1,'Arica y Parinacota','XV',1,'Arica',1,'Arica'
1,1,'Arica y Parinacota','XV',1,'Arica',2,'Camarones'
2,1,'Arica y Parinacota','XV',2,'Parinacota',3,'General Lagos'
3,1,'Arica y Parinacota','XV',2,'Parinacota',4,'Putre'
4,2,'Tarapacá','I',3,'Iquique',5,'Alto Hospicio'


In [17]:
regiones_provincias.dropna()

Unnamed: 0,RegionID,RegionNombre,RegionOrdinal,ProvinciaID,ProvinciaNombre
0,1,'Arica y Parinacota','XV',1,'Arica'
1,1,'Arica y Parinacota','XV',2,'Parinacota'
2,2,'Tarapacá','I',3,'Iquique'
3,2,'Tarapacá','I',4,'El Tamarugal'
4,3,'Antofagasta','II',5,'Antofagasta'
5,3,'Antofagasta','II',6,'El Loa'
6,3,'Antofagasta','II',7,'Tocopilla'
7,4,'Atacama','III',8,'Chañaral'
8,4,'Atacama','III',9,'Copiapó'
9,4,'Atacama','III',10,'Huasco'


In [None]:
regiones_provincias_comunas[ regiones_provincias_comunas['ComunaNombre']=="'Arica'" ]

In [19]:
regiones_provincias_comunas.head()

Unnamed: 0_level_0,RegionID,RegionNombre,RegionOrdinal,ProvinciaID,ProvinciaNombre,ComunaID,ComunaNombre
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,1,'Arica y Parinacota','XV',1,'Arica',1,'Arica'
1,1,'Arica y Parinacota','XV',1,'Arica',2,'Camarones'
2,1,'Arica y Parinacota','XV',2,'Parinacota',3,'General Lagos'
3,1,'Arica y Parinacota','XV',2,'Parinacota',4,'Putre'
4,2,'Tarapacá','I',3,'Iquique',5,'Alto Hospicio'


In [21]:
regiones_provincias_comunas.loc[100]

RegionID                                     7
RegionNombre       'Metropolitana de Santiago'
RegionOrdinal                             'RM'
ProvinciaID                                 25
ProvinciaNombre                     'Santiago'
ComunaID                                   101
ComunaNombre                'Estación Central'
Name: 100, dtype: object

In [24]:
regiones_provincias_comunas[ regiones_provincias_comunas['ProvinciaID'] == 2 ] [['RegionID','ProvinciaID']]

Unnamed: 0_level_0,RegionID,ProvinciaID
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
2,1,2
3,1,2


In [26]:
seleccion = regiones_provincias_comunas.loc[ regiones_provincias_comunas['ProvinciaID'] == 2,  ['RegionID','ProvinciaID'] ]
seleccion

Unnamed: 0_level_0,RegionID,ProvinciaID
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
2,1,2
3,1,2


In [29]:
seleccion.to_csv('data/chile_demographic_merge.csv', index=True)

In [30]:
!cat data/chile_demographic_merge.csv

ID,RegionID,ProvinciaID
2,1,2
3,1,2


In [None]:
regiones_provincias_comunas.loc[1,"ComunaNombre"]

## 4. Loading ful dataset

In [31]:
data_file='data/chile_demographic.csv'
data=pd.read_csv(data_file, header=0, sep=',')
data.head()

Unnamed: 0,RegionID,Region,Provincia,Comuna,Superficie,Poblacion,Densidad,IDH_2005
0,1,Arica y Parinacota,Arica,Arica,4799.4,210936,38.4,0.736
1,1,Arica y Parinacota,Arica,Camarones,3927.0,679,0.3,0.751
2,1,Arica y Parinacota,Parinacota,General Lagos,2244.4,739,0.5,0.67
3,1,Arica y Parinacota,Parinacota,Putre,5902.5,1462,0.2,0.707
4,1,Arica y Parinacota,Iquique,Alto Hospicio,572.9,94455,87.6,


In [None]:
# Podemos ordenar el dataframe usando el campo Poblacion

data_sort=data.sort_values('Poblacion')
data_sort.head()

In [None]:
# Podemos ordenarlo de mayor a menor

data_sort=data.sort_values('Poblacion', ascending=False)
data_sort.head()

In [None]:
(data.groupby(data['Region'])['Poblacion','Superficie'].sum())

In [None]:
x=data.groupby(data['Region'])
x['Poblacion','Superficie'].sum()

In [None]:
(data.groupby(data['Region'])['Poblacion','Superficie'].sum()) \
    .sort_values(['Poblacion'])