## Trabajando con Pandas - Inicial

Pandas provee de tres datastructures principales: Series, DataFrame, e Index.
También usaremos numpy que provee una librería para manejar arrays n-dimensionales.

Bibliografía:
- Data Analysis with Pandas 2019 - Stefanie Molin

--------------------

# Importamos liberías comunes 

In [3]:
import numpy as np
import pandas as pd
import datetime

---------------

# Leyendo datos con Numpy


In [4]:
filename = 'data/example_data.csv'
data = np.genfromtxt(filename, delimiter=';', names=True, dtype=None, encoding='UTF')

In [5]:
data

array([('2018-10-13 11:10:23.560', '262km NW of Ozernovskiy, Russia', 'mww', 6.7, 'green', 1),
       ('2018-10-13 04:34:15.580', '25km E of Bitung, Indonesia', 'mww', 5.2, 'green', 0),
       ('2018-10-13 00:13:46.220', '42km WNW of Sola, Vanuatu', 'mww', 5.7, 'green', 0),
       ('2018-10-12 21:09:49.240', '13km E of Nueva Concepcion, Guatemala', 'mww', 5.7, 'green', 0),
       ('2018-10-12 02:52:03.620', '128km SE of Kimbe, Papua New Guinea', 'mww', 5.6, 'green', 1)],
      dtype=[('time', '<U23'), ('place', '<U37'), ('magType', '<U3'), ('mag', '<f8'), ('alert', '<U5'), ('tsunami', '<i8')])

In [6]:
data.shape # dimensiones del array , se trata de un array de  5 tuplas

(5,)

In [7]:
data.dtype #tipos de datos de cada elemento de la tupla

dtype([('time', '<U23'), ('place', '<U37'), ('magType', '<U3'), ('mag', '<f8'), ('alert', '<U5'), ('tsunami', '<i8')])

In [8]:
%%timeit ## realiza 7 ejecuciones de 100000 loops y calcula la media y el desvio estandard
max([row[3] for row in data])

2.75 µs ± 43.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Pasamos los datos a un diccionario cuyas keys sean los nombres de las columnas y sus valores, arreglos de numpy

**data.dtype.names** Accedemos a los nombres de las columnas

Podemos iterar por los row del numpy array con **for row in data** similar a como hacemos con una lista


In [9]:

array_dict = {}

for col_index, colname in enumerate(data.dtype.names):
    array_dict[colname] = np.array([row[col_index] for row in data])
    
array_dict    

{'time': array(['2018-10-13 11:10:23.560', '2018-10-13 04:34:15.580',
        '2018-10-13 00:13:46.220', '2018-10-12 21:09:49.240',
        '2018-10-12 02:52:03.620'], dtype='<U23'),
 'place': array(['262km NW of Ozernovskiy, Russia', '25km E of Bitung, Indonesia',
        '42km WNW of Sola, Vanuatu',
        '13km E of Nueva Concepcion, Guatemala',
        '128km SE of Kimbe, Papua New Guinea'], dtype='<U37'),
 'magType': array(['mww', 'mww', 'mww', 'mww', 'mww'], dtype='<U3'),
 'mag': array([6.7, 5.2, 5.7, 5.7, 5.6]),
 'alert': array(['green', 'green', 'green', 'green', 'green'], dtype='<U5'),
 'tsunami': array([1, 0, 0, 0, 1])}

In [10]:
array_dict
array_dict['mag'].max()

6.7

Es mucho más rápido que la implementación anterior pero construir el diccionario también consume tiempo.

In [11]:
# Buscamos obtener el row del valor máximo de mag usando el subindice del máximo
np.array([value[array_dict['mag'].argmax()] for key,value in array_dict.items()])

array(['2018-10-13 11:10:23.560', '262km NW of Ozernovskiy, Russia',
       'mww', '6.7', 'green', '1'], dtype='<U31')

----------------


## Series en Pandas

Es una estructura para arrays de un único tipo de dato. Es unidimensional, podría representar una columna. Los números a la izquierda representan los indices

In [12]:
place = pd.Series(array_dict['place'], name='place') #lo crea a partir de un numpy array
place

0          262km NW of Ozernovskiy, Russia
1              25km E of Bitung, Indonesia
2                42km WNW of Sola, Vanuatu
3    13km E of Nueva Concepcion, Guatemala
4      128km SE of Kimbe, Papua New Guinea
Name: place, dtype: object

Los atributos de la series son:
* **name** : nombre del objeto serie
* **dtype**: el tipo de datos
* **shape**: la dimensión dada por el número de filas
* **index**: retorna el objeto Index de la serie
* **values**: los valores como un numpy array

In [13]:
place.values

array(['262km NW of Ozernovskiy, Russia', '25km E of Bitung, Indonesia',
       '42km WNW of Sola, Vanuatu',
       '13km E of Nueva Concepcion, Guatemala',
       '128km SE of Kimbe, Papua New Guinea'], dtype=object)

In [14]:
place.index

RangeIndex(start=0, stop=5, step=1)

In [15]:
place.shape

(5,)

# Index

Index son las etiquetas del row. Puede ser un número, una fecha o un string.
Atributos:
* **name** : nombre
* **dtype** : tipo de datos del indice
* **shape**: dimensiones del indice
* **value**: los datos del objeto indice como numpy array
* **is_unique**: checkea si el indice tiene todos valores únicos

Documentación:  https:/​/​pandas.​pydata.​org/​pandas-​docs/stable/​generated/​pandas.​Index.​html.


In [16]:
print(place.index.name)

None


In [17]:
place.index.name = "Números"
print(place.index.name)

Números


In [18]:
place

Números
0          262km NW of Ozernovskiy, Russia
1              25km E of Bitung, Indonesia
2                42km WNW of Sola, Vanuatu
3    13km E of Nueva Concepcion, Guatemala
4      128km SE of Kimbe, Papua New Guinea
Name: place, dtype: object

In [19]:
place.index.values

array([0, 1, 2, 3, 4])

In [20]:
# En series como numpy se pueden usar operaciones aritméticas

print(np.array([1,2,3])+np.array([-1,-2,-3]))
print(pd.Series(np.array([1,2,3]))+pd.Series(np.array([-1,-2,-3])))

[0 0 0]
0    0
1    0
2    0
dtype: int64


Linspace crea un arreglo de numeros en numpy. Por defecto son 20 numeros y van desde inicio a fin
https://numpy.org/doc/stable/reference/generated/numpy.linspace.html

In [21]:
np.linspace(0,10)

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

In [22]:
np.linspace(0,9, num=10)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [23]:
# Cuando sumamos con Series podemos perder datos dado que suma index wise.

pd.Series(np.linspace(0,4,num=5))+pd.Series(np.ones(5), index=pd.Index([1,2,3,4,5]))

0    NaN
1    2.0
2    3.0
3    4.0
4    5.0
5    NaN
dtype: float64

In [24]:
# Cuando sumamos con Series podemos perder datos dado que suma index wise.
# IMPORTANTE: Notar que perdemos información donde no puede sumar
pd.Series(np.ones(5))+pd.Series(np.ones(5), index=pd.Index([1,3,5,7,9]))

0    NaN
1    2.0
2    NaN
3    2.0
4    NaN
5    NaN
7    NaN
9    NaN
dtype: float64

# DataFrame

El DataFrame se forma a patir de Series y contiene todas las columnas de datos. Notar que también tiene indice.
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html


In [25]:
# creamos un dataframe desde un diccionario de numpy arrays
df = pd.DataFrame(array_dict)
df

Unnamed: 0,time,place,magType,mag,alert,tsunami
0,2018-10-13 11:10:23.560,"262km NW of Ozernovskiy, Russia",mww,6.7,green,1
1,2018-10-13 04:34:15.580,"25km E of Bitung, Indonesia",mww,5.2,green,0
2,2018-10-13 00:13:46.220,"42km WNW of Sola, Vanuatu",mww,5.7,green,0
3,2018-10-12 21:09:49.240,"13km E of Nueva Concepcion, Guatemala",mww,5.7,green,0
4,2018-10-12 02:52:03.620,"128km SE of Kimbe, Papua New Guinea",mww,5.6,green,1


In [26]:
# Para ver los docstrings
# help()
# pd.read_csv? #Ipython help
# pd.read_csv??

_Para garantizar que el resultado sea reproducible, estableceremos la semilla aquí. La semilla da un
punto de partida para la generación de números pseudoaleatorios. Sin algoritmos para
generación de números aleatorios son verdaderamente aleatorios, son deterministas y, por lo tanto,
al establecer este punto de partida, los números generados serán los mismos cada vez que el
se ejecuta el código. Libro: Data Analysis with Pandas, 2019_

In [27]:
np.random.seed(0)
pd.Series(np.random.rand(5), name='random')

0    0.548814
1    0.715189
2    0.602763
3    0.544883
4    0.423655
Name: random, dtype: float64

In [28]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [30]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [31]:
np.random.normal(size=(4,))


array([-0.84272405,  1.96992445,  1.26611853, -0.50587654])

In [32]:
np.random.uniform(size=10)

array([0.52889492, 0.56804456, 0.92559664, 0.07103606, 0.0871293 ,
       0.0202184 , 0.83261985, 0.77815675, 0.87001215, 0.97861834])

Podemos usar **to_frame()** para convertir una Serie en un DataFrame

In [33]:
np.random.seed(0)
df = pd.Series(np.random.uniform(size=10)).to_frame()
df

Unnamed: 0,0
0,0.548814
1,0.715189
2,0.602763
3,0.544883
4,0.423655
5,0.645894
6,0.437587
7,0.891773
8,0.963663
9,0.383442


In [34]:
# Podemos cerar un dataframe a partir de un diccionario de np.arrays o listas
np.random.seed(0)
pd.DataFrame({'random': np.random.rand(5),
             'text': ['hot','warm','cool','cold',None],
             'truth': [np.random.choice([True, False]) for _ in range(5)]
             },
            index=pd.date_range(end=datetime.date(2019, 4, 21), freq = '1D', periods=5, name='date')
            )

Unnamed: 0_level_0,random,text,truth
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019-04-17,0.548814,hot,False
2019-04-18,0.715189,warm,True
2019-04-19,0.602763,cool,True
2019-04-20,0.544883,cold,False
2019-04-21,0.423655,,True


In [35]:
# Podemos crear un dataframe a partir de una lista de diccionarios
pd.DataFrame([ {'mag' : 5.2, 'place' : 'California'},
              {'mag' : 1.2, 'place' : 'Alaska'}, 
              {'mag' : 0.2, 'place' : 'California'},
             ])


Unnamed: 0,mag,place
0,5.2,California
1,1.2,Alaska
2,0.2,California


In [36]:
# Podemos crear un dataframe a partir de una lista de tuplas

list_of_tuples = [ (n, n**2, n**3) for n in range(5)]
pd.DataFrame(list_of_tuples, columns=["n", "n_squared", "n_cubed"])

Unnamed: 0,n,n_squared,n_cubed
0,0,0,0
1,1,1,1
2,2,4,8
3,3,9,27
4,4,16,64


In [37]:
# Podemos crear un DataFrame desde un numpy array
pd.DataFrame(np.array([[0, 0, 0],[1, 1, 1], [2, 4, 8], [3, 9, 27], [4, 16, 64]]), 
             columns=['n', 'n_squared', 'n_cubed'] )


Unnamed: 0,n,n_squared,n_cubed
0,0,0,0
1,1,1,1
2,2,4,8
3,3,9,27
4,4,16,64


-----

# Leyendo datos desde archivos

Podemos capturar la salida de la linea de comandos con Python

In [40]:
files = !ls -lh data
files

['total 6,9M',
 '-rw-rw-r-- 1 lety lety 3,4M oct 15 20:10 earthquakes.csv',
 '-rw-rw-r-- 1 lety lety  397 oct 15 20:10 example_data.csv',
 '-rw-rw-r-- 1 lety lety 3,5M oct 15 20:10 parsed.csv',
 '-rw-rw-r-- 1 lety lety  16K oct 15 20:10 quakes.db',
 '-rw-rw-r-- 1 lety lety 6,7K oct 15 20:10 tsunamis.csv']

Podemos leer un archivo de Pandas usando read_csv.  Tiene los siguientes parámetros:
* **sep** : Especifica el delimitador.
* **header** : El número de fila donde estan los nombres de la columnas
* **names** : Lista de nombres de las columnas usadas como cabecera
* **index_col**: columna para usar como indice
* **usecols** : que columnas leer
* **dtype** : tipos de datos para las columnas
* **converters** : Funciones para convertir ciertos datos en ciertas columnas
* **skiprows** : Saltear filas
* **nrows** : Cantidad de rows a leer de un tiempo
* **parse_dates** : Parsea las columnas conteniendo fechas en datetime
* **chunksize** : Para leer el archivo en trozos (chuncks)
* **compression** : Para leer archivos comprimidos sin extraerlos antes
* **encoding** : Especifica el file encoding



In [45]:
filename="data/earthquakes.csv"
df = pd.read_csv(filename)



In [46]:
df

Unnamed: 0,alert,cdi,code,detail,dmin,felt,gap,ids,mag,magType,...,sources,status,time,title,tsunami,type,types,tz,updated,url
0,,,37389218,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.008693,,85.0,",ci37389218,",1.35,ml,...,",ci,",automatic,1539475168010,"M 1.4 - 9km NE of Aguanga, CA",0,earthquake,",geoserve,nearby-cities,origin,phase-data,",-480.0,1539475395144,https://earthquake.usgs.gov/earthquakes/eventp...
1,,,37389202,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.020030,,79.0,",ci37389202,",1.29,ml,...,",ci,",automatic,1539475129610,"M 1.3 - 9km NE of Aguanga, CA",0,earthquake,",geoserve,nearby-cities,origin,phase-data,",-480.0,1539475253925,https://earthquake.usgs.gov/earthquakes/eventp...
2,,4.4,37389194,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.021370,28.0,21.0,",ci37389194,",3.42,ml,...,",ci,",automatic,1539475062610,"M 3.4 - 8km NE of Aguanga, CA",0,earthquake,",dyfi,focal-mechanism,geoserve,nearby-cities,o...",-480.0,1539536756176,https://earthquake.usgs.gov/earthquakes/eventp...
3,,,37389186,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.026180,,39.0,",ci37389186,",0.44,ml,...,",ci,",automatic,1539474978070,"M 0.4 - 9km NE of Aguanga, CA",0,earthquake,",geoserve,nearby-cities,origin,phase-data,",-480.0,1539475196167,https://earthquake.usgs.gov/earthquakes/eventp...
4,,,73096941,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.077990,,192.0,",nc73096941,",2.16,md,...,",nc,",automatic,1539474716050,"M 2.2 - 10km NW of Avenal, CA",0,earthquake,",geoserve,nearby-cities,origin,phase-data,scit...",-480.0,1539477547926,https://earthquake.usgs.gov/earthquakes/eventp...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9327,,,73086771,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.018060,,185.0,",nc73086771,",0.62,md,...,",nc,",reviewed,1537230228060,"M 0.6 - 9km ENE of Mammoth Lakes, CA",0,earthquake,",geoserve,nearby-cities,origin,phase-data,",-480.0,1537285598315,https://earthquake.usgs.gov/earthquakes/eventp...
9328,,,38063967,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.030410,,50.0,",ci38063967,",1.00,ml,...,",ci,",reviewed,1537230135130,"M 1.0 - 3km W of Julian, CA",0,earthquake,",geoserve,nearby-cities,origin,phase-data,scit...",-480.0,1537276800970,https://earthquake.usgs.gov/earthquakes/eventp...
9329,,,2018261000,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.452600,,276.0,",pr2018261000,",2.40,md,...,",pr,",reviewed,1537229908180,"M 2.4 - 35km NNE of Hatillo, Puerto Rico",0,earthquake,",geoserve,origin,phase-data,",-240.0,1537243777410,https://earthquake.usgs.gov/earthquakes/eventp...
9330,,,38063959,https://earthquake.usgs.gov/fdsnws/event/1/que...,0.018650,,61.0,",ci38063959,",1.10,ml,...,",ci,",reviewed,1537229545350,"M 1.1 - 9km NE of Aguanga, CA",0,earthquake,",focal-mechanism,geoserve,nearby-cities,origin...",-480.0,1537230211640,https://earthquake.usgs.gov/earthquakes/eventp...


Las opciones **read_json()** y **read_excel()** nos permiten leer desde esas fuentes respectivamente.

In [48]:
# Para salvar a CSV
df.to_csv('output.csv', index=False)


----

# From Database

Importamos el paquete de base de datos


In [52]:
import sqlite3

Escribir desde un CSV datos a una base de datos, si el archivo no existe la crea
Documentación : https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html.


In [55]:
csv_filename = 'data/tsunamis.csv'
db_filename = 'data/quakes.db'

with sqlite3.connect(db_filename) as connection:
    pd.read_csv(csv_filename).to_sql(
        'tsunamis', connection, index=False, if_exists='replace'
    )

In [56]:
with sqlite3.connect('data/quakes.db') as connection:
    tsunamis = pd.read_sql('SELECT * FROM tsunamis', connection)

tsunamis.head()


Unnamed: 0,alert,type,title,place,magType,mag,time
0,,earthquake,"M 5.0 - 165km NNW of Flying Fish Cove, Christm...","165km NNW of Flying Fish Cove, Christmas Island",mww,5.0,1539459504090
1,green,earthquake,"M 6.7 - 262km NW of Ozernovskiy, Russia","262km NW of Ozernovskiy, Russia",mww,6.7,1539429023560
2,green,earthquake,"M 5.6 - 128km SE of Kimbe, Papua New Guinea","128km SE of Kimbe, Papua New Guinea",mww,5.6,1539312723620
3,green,earthquake,"M 6.5 - 148km S of Severo-Kuril'sk, Russia","148km S of Severo-Kuril'sk, Russia",mww,6.5,1539213362130
4,green,earthquake,"M 6.2 - 94km SW of Kokopo, Papua New Guinea","94km SW of Kokopo, Papua New Guinea",mww,6.2,1539208835130


----

# From API

In [58]:
import requests
import datetime
