### Biblioteca Python Pandas - almacena y manipula datos en dataframes (tablas)

In [None]:
import pandas as pd

### Leyendo desde un archivo CSV y generando un dataframe

In [None]:
f = open('Cities.csv','r')
cities = pd.read_csv(f)

In [None]:
cities

In [None]:
# Número de filas
len(cities)

In [None]:
# Primeras filas
cities.head()

In [None]:
# últimas filas
cities.tail(20)

### Ordenando y Seleccionado filas y columnas

In [None]:
# Ordenando por país y luego por temperatura
cities.sort_values(['country','temperature'],ascending=[True,False])

In [None]:
# Seleccionando una columna -- agrega una serie
cities.city
# Probar también con cities['city'], cities['temperature'], cities.temperature

In [None]:
# Seleccionadno múltiples columnas - retorna una dataframe
cities[['city','temperature']]
# Prueba también cities[['city']]

In [None]:
# Seleccionando filas en base a una condición
# Nota: No se necesita convertir la longitud a float, panda lo hace automático
cities[cities.longitude < 0]

In [None]:
# Seleccionando las filas por su número
cities[15:20]
# Prueba cities[:8] y cities[200:]

In [None]:
# Ciudades y longitud de todas las ciudades con latitud > 50 y
# temperatura > 9, ordenado por longitud
temp1 = cities[(cities.latitude > 50) & (cities.temperature > 9)]
temp2 = temp1[['city','longitude']]
temp3 = temp2.sort_values('longitude')
temp3

### Agregación

In [None]:
# Temperatura mínima y máxima
print('Minimum temperature:', min(cities.temperature))
print('Maximum temperature:', max(cities.temperature))

In [None]:
# Temperatura promedio
print('Using sum/count:', sum(cities.temperature)/len(cities.temperature))
import numpy as np
print('Using numpy:', np.average(cities.temperature))
print('Using built-in mean:', cities.temperature.mean())

In [None]:
# Temperatura promedio de todas las ciudades de cada país
cities.groupby('country').mean().temperature

# prueba también con cities.groupby('country').mean()[['temperature']]
# prueba cambiando mean() a min()

### Uniendo

In [None]:
# Cities.csv ya fue leído
f = open('Countries.csv','r')
countries = pd.read_csv(f)

cities.merge(countries, on='country')

In [None]:
# Joining es simétrico
countries.merge(cities, on='country')

### Otras funcionalidades

In [None]:
# Operaciones con String - países con 'ia' en su nombre
countries[countries.country.str.contains('ia')]

# también probar endswith()

In [None]:
# Agregar columna con temperatura en fahrenheit
cities['fahrenheit'] = (cities.temperature * 9/5) + 32
cities

In [None]:
# OJO: que Jupyter Notebook sólo muestra los resultados de la última sentencia
# Ejecuta esto en celdas separadas
cities[cities.longitude > 35]
cities[cities.longitude < -5]