# Manipulacion de datos con Pandas

In [2]:
# Impotamos las lbrerias necesarias
import numpy as np
import math as mt
import matplotlib.pyplot as plt
import pandas as pd
import requests
import os

In [7]:
pd?

## INTRODUCCION A LOS OBJETOS DE PANDAS

### EL OBJETO SERIES DE PANDAS

Una serie de Pandas es un arreglo de una dimension de datos con indices. Ejemplo de creacion:

In [9]:
# ARREGLO CON FLOTANTES
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [10]:
# ARREGLO CON ENTEROS
data1 = pd.Series([50, 100, -50, -200])
data1

0     50
1    100
2    -50
3   -200
dtype: int64

Los datos de salida son una lista con un indice. Se puede acceder a estos valores de la siguiente manera:

In [11]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [12]:
data1.values

array([  50,  100,  -50, -200])

In [13]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [14]:
data1.index

RangeIndex(start=0, stop=4, step=1)

In [18]:
data[0]

0.25

In [19]:
data[0:3]

0    0.25
1    0.50
2    0.75
dtype: float64

In [20]:
data1[0]

50

In [21]:
data1[0:3]

0     50
1    100
2    -50
dtype: int64

### LAS SERIES COMO ARREGLOS GENERALIZADOS DE NUMPY

Las series no necesariamente llevan un indice con valor numerico, pueden ser una cadena de caracteres, por ejemplo:

In [22]:
data3 = pd.Series([10, 20, 30, 40],
                 index=['hola1', 'hola2', 'hola3', 'hola4'])
data3

hola1    10
hola2    20
hola3    30
hola4    40
dtype: int64

Ejemplo de como accesar a esta serie mediante su indice:

In [24]:
data3['hola3']

30

### SERIES COMO DICCIONARIOS ESPECIALIZADOS

En algunas ocasiones en que se manipulan series, es conveniente trabajarlas como diccionarios, que son basicamente series con indices en forma de cadenas de texto. Estas series pueden construirse apartir de objetos directamente desde un diccionario de Python. Por ejemplo:

In [25]:
medidas = {'masa1': 383.32521,
                   'peso1': 264.48193,
                   'volumen1': 196.51127,
                   'temperatura1': 195.52860,
                   'presion1': 128.82135}
medida = pd.Series(medidas)
medida

masa1           383.32521
peso1           264.48193
volumen1        196.51127
temperatura1    195.52860
presion1        128.82135
dtype: float64

In [26]:
medida['volumen1']

196.51127

### CONSTRUYENDO AL OBJETO SERIE

In [None]:
#codigo base
pd.Series(data, index=index)
# index es un valor opcional

Ejemplos:

In [29]:
pd.Series([13,20,15,1111111])

0         13
1         20
2         15
3    1111111
dtype: int64

In [30]:

pd.Series(5, index=[1, 558, 7])

1      5
558    5
7      5
dtype: int64

### EL OBJETO MARCO DE DATOS DE PANDAS

Los marcos de datos de numpy son series que contienen mas de un arreglo de datos con el mismo indice:

In [6]:
unidad = {'ACERO': 'TON',
                   'CONCRETO': 'TON',
                   'CARBON': 'TON',
                   'PETROLEO': 'BARRIL',
                   'GAS': 'M3',
                   'GASOLINA': 'LITRO'}
unidades = pd.Series(unidad)
unidad

{'ACERO': 'TON',
 'CONCRETO': 'TON',
 'CARBON': 'TON',
 'PETROLEO': 'BARRIL',
 'GAS': 'M3',
 'GASOLINA': 'LITRO'}

In [3]:
precio = {'ACERO': 10000, 'CONCRETO': 5000, 'CARBON': 2500, 'PETROLEO': 300, 'GAS': 250, 'GASOLINA': 20}
precios = pd.Series(precio)
precios

ACERO       10000
CONCRETO     5000
CARBON       2500
PETROLEO      300
GAS           250
GASOLINA       20
dtype: int64

Ahora construimos un objeto bidimensional con estas dos series

In [9]:
    productos = pd.DataFrame({'precios': precios,'unidades': unidades,})
    productos

Unnamed: 0,precios,unidades
ACERO,10000,TON
CONCRETO,5000,TON
CARBON,2500,TON
PETROLEO,300,BARRIL
GAS,250,M3
GASOLINA,20,LITRO


De forma similar a las series, los marcos de datos tienen un indice que da acceso a las etiquetas:

In [10]:
productos.index

Index(['ACERO', 'CONCRETO', 'CARBON', 'PETROLEO', 'GAS', 'GASOLINA'], dtype='object')

Tambien se puede accesar a las columnas:

In [11]:
productos.columns

Index(['precios', 'unidades'], dtype='object')

### MARCOS DE DATOS COMO DICCIONARIOS ESPECIALIZADOS

A partir de un Dataframe podemos llamar a sus atributos y se obtener una serie original con la que se creo el Dataframe:

In [12]:
productos['precios']

ACERO       10000
CONCRETO     5000
CARBON       2500
PETROLEO      300
GAS           250
GASOLINA       20
Name: precios, dtype: int64

### Construyendo Dataframes

Existen diversas formas de crear un Dataframe:

-Apartir de una simple serie:

In [13]:
pd.DataFrame(precios, columns=['precios'])

Unnamed: 0,precios
ACERO,10000
CONCRETO,5000
CARBON,2500
PETROLEO,300
GAS,250
GASOLINA,20


-Desde una lista de diccionarios:

In [15]:
datos = [{'a': i, 'b': 2 * i, 'c': 3 * i, 'c': 3 * i}
        for i in range(4)]
pd.DataFrame(datos)

Unnamed: 0,a,b,c
0,0,0,0
1,1,2,3
2,2,4,6
3,3,6,9


-Desde un diccionario de objetos Serie:

In [21]:
productos = pd.DataFrame({'precios': precios,'unidades': unidades,})
productos

Unnamed: 0,precios,unidades
ACERO,10000,TON
CONCRETO,5000,TON
CARBON,2500,TON
PETROLEO,300,BARRIL
GAS,250,M3
GASOLINA,20,LITRO


-Desde un arreglo bidimensional de numpy:

In [35]:
pd.DataFrame(np.array([('TON', 1000), ('TON', 500), ('BARIIL', 200)]),
             columns=['UNIDAD', 'CANTIDAD'],
             index=['CONCRETO', 'ACERO', 'PETROLEO'])

Unnamed: 0,UNIDAD,CANTIDAD
CONCRETO,TON,1000
ACERO,TON,500
PETROLEO,BARIIL,200


In [31]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['UNIDAD', 'CANTIDAD'],
             index=['CONCRETO', 'ACERO', 'PETROLEO'])

Unnamed: 0,UNIDAD,CANTIDAD
CONCRETO,0.003824,0.465131
ACERO,0.988109,0.387982
PETROLEO,0.945354,0.662622


### EL OBJETO INDICES DE PANDAS

Ejemplo de construccion de lista de indices para comenzar a ver sus propiedades:

In [36]:
ind = pd.Index([2, 2, 5, 7, 11])
ind

Int64Index([2, 2, 5, 7, 11], dtype='int64')

Los indices funcionan como arreglos, podemos usar la notacion de python para obtener un valor:

In [37]:
ind[4]

11

In [40]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Los indices no pueden ser modificados con comandos normales:

In [41]:
ind[1] = 0

TypeError: Index does not support mutable operations

### INDICE COMO CONJUNTO ORDENADO

Las uniones, intersecciones, diferencias y otras combinaciones pueden ser obtenidas de forma similar a los comandos con arreglos de python:

In [45]:
indA = pd.Index(['ACERO', 'CONCRETO', 'GAS', 'GASOLINA'])
indB = pd.Index(['PETROLEO', 'HIERRO', 'CONCRETO', 'NIQUEL'])

In [46]:
indA & indB  # interseccion

Index(['CONCRETO'], dtype='object')

In [47]:
indA | indB  # union

Index(['ACERO', 'CONCRETO', 'GAS', 'GASOLINA', 'HIERRO', 'NIQUEL', 'PETROLEO'], dtype='object')

In [48]:
indA ^ indB  # diferencia simetrica

Index(['ACERO', 'GAS', 'GASOLINA', 'HIERRO', 'NIQUEL', 'PETROLEO'], dtype='object')

## SELECCION DE DATOS Y ASIGNACION DE INDICES

### SELECCION DE DATOS EN SERIES

Para esta seccion se utilizaran los datos de lluvia, temperatura maxima, temperatura minima y temperatura promedio de 2019 obtenidos del INEGI

In [49]:
# SE CARGAN LOS ARCHIVOS DE DATOS DE 2019
LLUVIA_2019 = pd.read_csv('201901010000Lluv.csv',encoding='latin-1')
TMAX_2019 = pd.read_csv('201901010000TMax.csv',encoding='latin-1')
TMIN_2019 = pd.read_csv('201901010000TMin.csv',encoding='latin-1')
TMED_2019 = pd.read_csv('201901010000TMed.csv',encoding='latin-1')

Se pueden utilizar expresiones similares a las de python para examinar los indices y valores:

In [56]:
'LON' in LLUVIA_2019

True

In [58]:
LLUVIA_2019.LON[0]

-102.309722

In [54]:
LLUVIA_2019.LON

0      -102.309722
1      -102.466944
2      -102.184167
3      -102.712222
4      -102.676944
5      -102.197222
6      -102.189167
7      -102.000000
8      -102.296667
9      -102.356944
10     -102.788333
11     -102.371667
12     -102.001944
13     -102.290556
14     -102.465000
15     -101.966667
16     -102.291944
17     -102.417222
18     -102.133333
19     -102.437500
20     -102.108889
21     -102.127778
22     -102.067500
23     -116.204167
24     -116.908333
25     -114.719167
26     -116.696944
27     -116.828333
28     -116.602500
29     -115.150000
           ...    
1211   -103.001944
1212   -102.566944
1213   -103.603056
1214   -102.660556
1215   -103.382778
1216   -101.985556
1217   -103.216944
1218   -103.363889
1219   -103.561667
1220   -102.845556
1221   -102.615000
1222   -102.798056
1223   -101.399167
1224   -102.903611
1225   -103.025833
1226   -102.884444
1227   -103.506111
1228   -103.636667
1229   -103.495833
1230   -103.108889
1231   -102.864167
1232   -103.

In [50]:
print(LLUVIA_2019.keys())

Index(['LON', 'LAT', 'EDO', 'CLAVE_SIH', 'NOMBRE', 'ENE'], dtype='object')


In [51]:
print(TMAX_2019.keys())

Index(['Lon', 'Lat', 'Clave', 'Edo', 'Est', 'Tmax'], dtype='object')


In [52]:
print(TMIN_2019.keys())

Index(['Lon', 'Lat', 'Clave', 'Edo', 'Est', 'Tmin'], dtype='object')


In [53]:
print(TMED_2019.keys())

Index(['Lon', 'Lat', 'Clave', 'Edo', 'Est', 'Tmed'], dtype='object')


### SERIES COMO UN ARREGLO DE UNA DIMENSION

De forma similar a los comandos de python, se pueden usar comandos para filtrar la informacion de una serie:

In [60]:
LLUVIA_2019.LON[0:5] # corte o slice

0   -102.309722
1   -102.466944
2   -102.184167
3   -102.712222
4   -102.676944
Name: LON, dtype: float64

In [61]:
LLUVIA_2019.LON[(LLUVIA_2019.LON > -102.4) & (LLUVIA_2019.LON < -102.3)] # masking

0      -102.309722
9      -102.356944
11     -102.371667
595    -102.371667
596    -102.371111
628    -102.325000
938    -102.371667
1202   -102.347222
1236   -102.344167
Name: LON, dtype: float64

In [63]:
LLUVIA_2019.LON[[0, 4]] # fancy indexing

0   -102.309722
4   -102.676944
Name: LON, dtype: float64

### INDEXERS: LOC, ILOC, E IX