In [1]:
import tabula
import pandas as pd

#tabula permite leer tablas de archivos pdf, además de que es posible convertirlas en DataFrames de Pandas

In [2]:
d1 = tabula.read_pdf('lluvias_2019.pdf')

In [3]:
d1

Unnamed: 0,Entidad,Ene,Feb,Mar,Abr,May,Jun,Jul,Ago,Sep,Oct,Nov,Dic,Anual
0,Aguascalientes,11.3,0.0,0.4,0.0,2.5,45.7,101.3,,,,,,161.3
1,Baja California,17.8,49.5,13.4,1.2,5.6,0.0,5.1,,,,,,92.5
2,Baja California Sur,11.1,3.1,6.1,0.0,0.6,0.0,6.9,,,,,,27.8
3,Campeche,26.7,14.2,34.6,32.7,72.6,250.9,156.8,,,,,,588.4
4,Coahuila,6.9,0.6,11.3,12.3,30.8,49.9,22.3,,,,,,134.2
5,Colima,5.7,0.1,0.1,0.0,3.5,111.2,310.6,,,,,,431.1
6,Chiapas,39.8,28.5,34.6,14.0,200.4,277.0,142.6,,,,,,736.7
7,Chihuahua,15.2,13.8,11.5,1.0,3.5,26.0,76.1,,,,,,147.1
8,Ciudad de México,5.3,5.7,7.2,4.3,21.6,108.1,145.5,,,,,,297.6
9,Durango,6.6,0.7,0.7,0.0,1.9,31.5,74.8,,,,,,116.3


# Manipulación de datos con Pandas

Pandas permite el manejo de estructuras conocidas como *DataFrames*, los cuales son arreglos multidimensionales, manejados en filas y columnas. Una vez instalado Pandas, es necesario que sea importado para trabajar con él. Para fines prácticos, Pandas se importa bajo la etiqueta ***pd***. Al igual que con otras librerias y comandos, es posible consultar la documentación de Pandas mediante el uso de ***pd?***.

In [4]:
pd?

[0;31mType:[0m        module
[0;31mString form:[0m <module 'pandas' from '/home/chava/Documentos/miniconda3/envs/data_main/lib/python3.7/site-packages/pandas/__init__.py'>
[0;31mFile:[0m        ~/Documentos/miniconda3/envs/data_main/lib/python3.7/site-packages/pandas/__init__.py
[0;31mDocstring:[0m  
pandas - a powerful data analysis and manipulation library for Python

**pandas** is a Python package providing fast, flexible, and expressive data
structures designed to make working with "relational" or "labeled" data both
easy and intuitive. It aims to be the fundamental high-level building block for
doing practical, **real world** data analysis in Python. Additionally, it has
the broader goal of becoming **the most powerful and flexible open source data
analysis / manipulation tool available in any language**. It is already well on
its way toward this goal.

Main Features
-------------
Here are just a few of the things that pandas does well:

  - Easy handling of missing data i

In [5]:
import numpy as np

Los objetos de Pandas pueden considerarse como una versión mejorada de los objetos de NumPy, con la diferencia de que Pandas tiene la propiedad de asignar etiquetas de fila y columna, a diferencia de números enteros (como era el caso con NumPy). Es entonces importante analizar los distintos tipos de estructuras de datos proporcionadas por Pandas.

### Series

Una serie es un arreglo uno dimensional con datos (para nuestro archivo d1, elegimos alguna de las etiquetas para obtener el arreglo de esa columna)

In [6]:
s1 = pd.Series(d1['Feb'])
s1

0      0.0
1     49.5
2      3.1
3     14.2
4      0.6
5      0.1
6     28.5
7     13.8
8      5.7
9      0.7
10     0.8
11     0.4
12     7.9
13     1.1
14     5.8
15     1.0
16     1.2
17     0.5
18     2.8
19     4.7
20     9.1
21     2.3
22    62.0
23     3.4
24     1.2
25    36.2
26    82.4
27     7.5
28     5.2
29    15.5
30    42.7
31     0.4
32    13.7
Name: Feb, dtype: float64

del cual, es posible consultar sus valores y los índices de la siguiente forma

In [7]:
s1.values

array([ 0. , 49.5,  3.1, 14.2,  0.6,  0.1, 28.5, 13.8,  5.7,  0.7,  0.8,
        0.4,  7.9,  1.1,  5.8,  1. ,  1.2,  0.5,  2.8,  4.7,  9.1,  2.3,
       62. ,  3.4,  1.2, 36.2, 82.4,  7.5,  5.2, 15.5, 42.7,  0.4, 13.7])

In [8]:
s1.index

RangeIndex(start=0, stop=33, step=1)

y, de forma similar a NumPy, es posible consultar valores mediante el uso de paréntesis cuadrados, como en los siguientes ejemplos

In [9]:
s1[4]

0.6

In [10]:
s1[1:10]

1    49.5
2     3.1
3    14.2
4     0.6
5     0.1
6    28.5
7    13.8
8     5.7
9     0.7
Name: Feb, dtype: float64

### DataFrame

Así como Series es un análogo de los arreglos uno-dimensionales de NumPy, DataFrame es un análogo de un arreglo de dos dimensiones. Siendo que los objetos de Series y de los arreglos de NumPy son similares, con la diferencia de que los objetos de Series tienen asignado un índice especial cualquiera (cosa que no ocurre para los de NumPy, que tienen asignada una posición mediante número entero), algo similar ocurre entre DataFrame y los arreglos dos-dimensionales de NumPy

In [11]:
df1 = pd.DataFrame({'Febrero' : d1['Feb'], 'Marzo' : d1['Mar']})
df1

Unnamed: 0,Febrero,Marzo
0,0.0,0.4
1,49.5,13.4
2,3.1,6.1
3,14.2,34.6
4,0.6,11.3
5,0.1,0.1
6,28.5,34.6
7,13.8,11.5
8,5.7,7.2
9,0.7,0.7


Al igual que con los objetos de Series, es posible consultar propiedades de los objetos de DataFrame

In [12]:
df1.index

RangeIndex(start=0, stop=33, step=1)

In [13]:
df1.columns

Index(['Febrero', 'Marzo'], dtype='object')

Así mismo, DataFrame funciona como diccionario, de modo que es posible preguntar por datos específicos, para obtener una Serie de esos datos, por ejemplo, pedimos una Serie con los datos de Febrero

In [14]:
df1['Febrero']

0      0.0
1     49.5
2      3.1
3     14.2
4      0.6
5      0.1
6     28.5
7     13.8
8      5.7
9      0.7
10     0.8
11     0.4
12     7.9
13     1.1
14     5.8
15     1.0
16     1.2
17     0.5
18     2.8
19     4.7
20     9.1
21     2.3
22    62.0
23     3.4
24     1.2
25    36.2
26    82.4
27     7.5
28     5.2
29    15.5
30    42.7
31     0.4
32    13.7
Name: Febrero, dtype: float64

### Indices

In [15]:
i1 = pd.Index(d1['Feb'])
i1

Float64Index([ 0.0, 49.5,  3.1, 14.2,  0.6,  0.1, 28.5, 13.8,  5.7,  0.7,  0.8,
               0.4,  7.9,  1.1,  5.8,  1.0,  1.2,  0.5,  2.8,  4.7,  9.1,  2.3,
              62.0,  3.4,  1.2, 36.2, 82.4,  7.5,  5.2, 15.5, 42.7,  0.4,
              13.7],
             dtype='float64', name='Feb')

Obtenemos el valor de algún índice de la siguiente forma

In [16]:
i1[1]

49.5

De igual forma, es posible acceder a determinados datos, saltándose índices

In [17]:
i1[::3]

Float64Index([0.0, 14.2, 28.5, 0.7, 7.9, 1.0, 2.8, 2.3, 1.2, 7.5, 42.7], dtype='float64', name='Feb')

También es posible conocer las características de **i1**

In [18]:
print(i1.size, i1.shape, i1.ndim, i1.dtype)

33 (33,) 1 float64


En este caso, no es posible asignar un nuevo valor a un determinado índice

In [19]:
i1[1] = 0

TypeError: Index does not support mutable operations

Definiendo un i2, podemos explorar algunas operaciones entre elementos de este tipo

In [20]:
i2 = pd.Index(d1['Mar'])
i2

Float64Index([ 0.4, 13.4,  6.1, 34.6, 11.3,  0.1, 34.6, 11.5,  7.2,  0.7,  0.9,
               0.7, 11.3,  0.1,  6.7,  0.7,  2.3,  0.0, 38.2,  9.6, 11.4,  4.6,
              20.0, 13.7,  4.8, 35.1, 91.7, 36.2,  4.7, 30.3, 19.0,  6.3,
              16.2],
             dtype='float64', name='Mar')

In [21]:
i1 & i2 #intersección de valores#

Float64Index([0.0, 0.1, 0.1, 0.7, 0.7, 0.7, 0.4, 4.7, 2.3, 36.2, 13.7], dtype='float64')

In [22]:
i1 | i2 #unión de valores#

InvalidIndexError: Reindexing only valid with uniquely valued Index objects

In [23]:
i1 ^ i2 #diferencia simétrica entre valores#

Float64Index([ 0.5,  0.6,  0.8,  0.9,  1.0,  1.1,  1.2,  2.8,  3.1,  3.4,  4.6,
               4.8,  5.2,  5.7,  5.8,  6.1,  6.3,  6.7,  7.2,  7.5,  7.9,  9.1,
               9.6, 11.3, 11.4, 11.5, 13.4, 13.8, 14.2, 15.5, 16.2, 19.0, 20.0,
              28.5, 30.3, 34.6, 35.1, 38.2, 42.7, 49.5, 62.0, 82.4, 91.7],
             dtype='float64')

### Colocando índices/Seleccionando datos

In [47]:
import pandas as pd
datos = pd.Series(d1['Abr'])
datos.rename(index = {0:'a', 1:'b', 2:'c', 3:'d', 4:'e', 5:'f', 6:'g', 7:'h', 8:'i', 9:'j', 10:'k', 11:'l', 12:'m', 13:'n', 14:'o', 15:'p', 16:'q', 17:'r', 18:'s', 19:'t', 20:'u', 21:'v', 22:'w', 23:'x', 24:'y', 25:'z', 26:'aa', 27:'ab', 28:'ac', 29:'ad', 30:'ae', 31:'af', 32:'ag'}, inplace = True)
datos

a      0.0
b      1.2
c      0.0
d     32.7
e     12.3
f      0.0
g     14.0
h      1.0
i      4.3
j      0.0
k      0.3
l      0.4
m      6.8
n      0.1
o      7.3
p      1.4
q      0.5
r      0.0
s     13.9
t      8.5
u      8.0
v      2.7
w     57.0
x      2.2
y      0.0
z      0.8
aa    19.2
ab    10.1
ac     6.3
ad     8.0
ae    21.5
af     0.3
ag     6.6
Name: Abr, dtype: float64

In [49]:
datos['a']

0.0

In [50]:
'a' in datos

True

In [51]:
datos.keys()

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
       'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'aa', 'ab',
       'ac', 'ad', 'ae', 'af', 'ag'],
      dtype='object')

In [52]:
list(datos.items())

[('a', 0.0),
 ('b', 1.2),
 ('c', 0.0),
 ('d', 32.7),
 ('e', 12.3),
 ('f', 0.0),
 ('g', 14.0),
 ('h', 1.0),
 ('i', 4.3),
 ('j', 0.0),
 ('k', 0.3),
 ('l', 0.4),
 ('m', 6.8),
 ('n', 0.1),
 ('o', 7.3),
 ('p', 1.4),
 ('q', 0.5),
 ('r', 0.0),
 ('s', 13.9),
 ('t', 8.5),
 ('u', 8.0),
 ('v', 2.7),
 ('w', 57.0),
 ('x', 2.2),
 ('y', 0.0),
 ('z', 0.8),
 ('aa', 19.2),
 ('ab', 10.1),
 ('ac', 6.3),
 ('ad', 8.0),
 ('ae', 21.5),
 ('af', 0.3),
 ('ag', 6.6)]

In [53]:
datos['a'] = 9.0
datos

a      9.0
b      1.2
c      0.0
d     32.7
e     12.3
f      0.0
g     14.0
h      1.0
i      4.3
j      0.0
k      0.3
l      0.4
m      6.8
n      0.1
o      7.3
p      1.4
q      0.5
r      0.0
s     13.9
t      8.5
u      8.0
v      2.7
w     57.0
x      2.2
y      0.0
z      0.8
aa    19.2
ab    10.1
ac     6.3
ad     8.0
ae    21.5
af     0.3
ag     6.6
Name: Abr, dtype: float64

In [54]:
datos['d':'g']

d    32.7
e    12.3
f     0.0
g    14.0
Name: Abr, dtype: float64

In [55]:
datos[2:5]

c     0.0
d    32.7
e    12.3
Name: Abr, dtype: float64

In [56]:
datos[(datos > 2.5) & (datos < 7.5)]

i     4.3
m     6.8
o     7.3
v     2.7
ac    6.3
ag    6.6
Name: Abr, dtype: float64

In [57]:
datos[['a', 'ag']]

a     9.0
ag    6.6
Name: Abr, dtype: float64

In [73]:
datos_prueba = pd.Series(['a', 'b', 'c'], index = [2, 4, 6])
datos_prueba

2    a
4    b
6    c
dtype: object

In [74]:
datos_prueba[6]

'c'

In [77]:
datos_prueba[1:3]

4    b
6    c
dtype: object

In [78]:
datos_prueba.loc[6]

'c'

In [79]:
datos_prueba.loc[1:3]

2    a
dtype: object

In [82]:
datos_prueba.iloc[2]

'c'

In [83]:
datos_prueba.iloc[1:3]

4    b
6    c
dtype: object

In [86]:
enero = pd.Series(d1['Ene'])
febrero = pd.Series(d1['Feb'])
datos_juntos = pd.DataFrame({'enero':enero, 'febrero':febrero})
datos_juntos

Unnamed: 0,enero,febrero
0,11.3,0.0
1,17.8,49.5
2,11.1,3.1
3,26.7,14.2
4,6.9,0.6
5,5.7,0.1
6,39.8,28.5
7,15.2,13.8
8,5.3,5.7
9,6.6,0.7


In [87]:
datos_juntos['enero']

0      11.3
1      17.8
2      11.1
3      26.7
4       6.9
5       5.7
6      39.8
7      15.2
8       5.3
9       6.6
10      3.3
11      1.0
12     12.3
13      8.4
14      4.1
15      8.1
16      1.5
17      1.4
18     22.5
19     14.9
20      6.8
21      7.5
22     67.0
23     14.2
24     11.3
25     23.8
26    126.7
27     25.2
28      1.3
29     50.6
30     48.4
31      8.9
32     19.0
Name: enero, dtype: float64

In [88]:
datos_juntos.enero

0      11.3
1      17.8
2      11.1
3      26.7
4       6.9
5       5.7
6      39.8
7      15.2
8       5.3
9       6.6
10      3.3
11      1.0
12     12.3
13      8.4
14      4.1
15      8.1
16      1.5
17      1.4
18     22.5
19     14.9
20      6.8
21      7.5
22     67.0
23     14.2
24     11.3
25     23.8
26    126.7
27     25.2
28      1.3
29     50.6
30     48.4
31      8.9
32     19.0
Name: enero, dtype: float64

In [89]:
datos_juntos.enero is datos_juntos['enero']

True

In [90]:
datos_juntos.febrero is datos_juntos['enero']

False

In [91]:
datos_juntos['promedio'] = (datos_juntos['enero'] + datos_juntos['febrero'])/2

In [92]:
datos_juntos

Unnamed: 0,enero,febrero,promedio
0,11.3,0.0,5.65
1,17.8,49.5,33.65
2,11.1,3.1,7.1
3,26.7,14.2,20.45
4,6.9,0.6,3.75
5,5.7,0.1,2.9
6,39.8,28.5,34.15
7,15.2,13.8,14.5
8,5.3,5.7,5.5
9,6.6,0.7,3.65


In [94]:
datos_juntos.values

array([[1.1300e+01, 0.0000e+00, 5.6500e+00],
       [1.7800e+01, 4.9500e+01, 3.3650e+01],
       [1.1100e+01, 3.1000e+00, 7.1000e+00],
       [2.6700e+01, 1.4200e+01, 2.0450e+01],
       [6.9000e+00, 6.0000e-01, 3.7500e+00],
       [5.7000e+00, 1.0000e-01, 2.9000e+00],
       [3.9800e+01, 2.8500e+01, 3.4150e+01],
       [1.5200e+01, 1.3800e+01, 1.4500e+01],
       [5.3000e+00, 5.7000e+00, 5.5000e+00],
       [6.6000e+00, 7.0000e-01, 3.6500e+00],
       [3.3000e+00, 8.0000e-01, 2.0500e+00],
       [1.0000e+00, 4.0000e-01, 7.0000e-01],
       [1.2300e+01, 7.9000e+00, 1.0100e+01],
       [8.4000e+00, 1.1000e+00, 4.7500e+00],
       [4.1000e+00, 5.8000e+00, 4.9500e+00],
       [8.1000e+00, 1.0000e+00, 4.5500e+00],
       [1.5000e+00, 1.2000e+00, 1.3500e+00],
       [1.4000e+00, 5.0000e-01, 9.5000e-01],
       [2.2500e+01, 2.8000e+00, 1.2650e+01],
       [1.4900e+01, 4.7000e+00, 9.8000e+00],
       [6.8000e+00, 9.1000e+00, 7.9500e+00],
       [7.5000e+00, 2.3000e+00, 4.9000e+00],
       [6.

In [95]:
datos_juntos.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,23,24,25,26,27,28,29,30,31,32
enero,11.3,17.8,11.1,26.7,6.9,5.7,39.8,15.2,5.3,6.6,...,14.2,11.3,23.8,126.7,25.2,1.3,50.6,48.4,8.9,19.0
febrero,0.0,49.5,3.1,14.2,0.6,0.1,28.5,13.8,5.7,0.7,...,3.4,1.2,36.2,82.4,7.5,5.2,15.5,42.7,0.4,13.7
promedio,5.65,33.65,7.1,20.45,3.75,2.9,34.15,14.5,5.5,3.65,...,8.8,6.25,30.0,104.55,16.35,3.25,33.05,45.55,4.65,16.35


In [97]:
datos_juntos.values[0]

array([11.3 ,  0.  ,  5.65])

In [98]:
datos_juntos['enero']

0      11.3
1      17.8
2      11.1
3      26.7
4       6.9
5       5.7
6      39.8
7      15.2
8       5.3
9       6.6
10      3.3
11      1.0
12     12.3
13      8.4
14      4.1
15      8.1
16      1.5
17      1.4
18     22.5
19     14.9
20      6.8
21      7.5
22     67.0
23     14.2
24     11.3
25     23.8
26    126.7
27     25.2
28      1.3
29     50.6
30     48.4
31      8.9
32     19.0
Name: enero, dtype: float64

In [99]:
datos_juntos.iloc[:2, :3]

Unnamed: 0,enero,febrero,promedio
0,11.3,0.0,5.65
1,17.8,49.5,33.65


In [100]:
datos_juntos.loc[:'1', :'promedio']

Unnamed: 0,enero,febrero,promedio
0,11.3,0.0,5.65
1,17.8,49.5,33.65


In [102]:
datos_juntos.ix[:'1', :3]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  retval = getattr(retval, self.name)._getitem_axis(key, axis=i)


Unnamed: 0,enero,febrero,promedio
0,11.3,0.0,5.65
1,17.8,49.5,33.65


In [104]:
datos_juntos.loc[datos_juntos.promedio > 10.0, ['enero', 'promedio']]

Unnamed: 0,enero,promedio
1,17.8,33.65
3,26.7,20.45
6,39.8,34.15
7,15.2,14.5
12,12.3,10.1
18,22.5,12.65
22,67.0,64.5
25,23.8,30.0
26,126.7,104.55
27,25.2,16.35


In [107]:
datos_juntos.iloc[0, 2] = 100.0

In [108]:
datos_juntos

Unnamed: 0,enero,febrero,promedio,"(0, 2)"
0,11.3,0.0,100.0,100.0
1,17.8,49.5,33.65,100.0
2,11.1,3.1,7.1,100.0
3,26.7,14.2,20.45,100.0
4,6.9,0.6,3.75,100.0
5,5.7,0.1,2.9,100.0
6,39.8,28.5,34.15,100.0
7,15.2,13.8,14.5,100.0
8,5.3,5.7,5.5,100.0
9,6.6,0.7,3.65,100.0


In [110]:
datos_juntos[1:3]

Unnamed: 0,enero,febrero,promedio,"(0, 2)"
1,17.8,49.5,33.65,100.0
2,11.1,3.1,7.1,100.0


In [111]:
datos_juntos[datos_juntos.promedio > 100.0]

Unnamed: 0,enero,febrero,promedio,"(0, 2)"
26,126.7,82.4,104.55,100.0
