# Laborotario 02: Scraping y visualización

**Problema:** Leer archivos archivos de diferentes fuentes para extraer los datos que son necesarios para realizar un análisis visual y estadístico. 

**Objetivos de aprendizaje:**
  * Obtener una introducción a las estructuras de datos de `DataFrame` y `Series` de la biblioteca de *Pandas*
  * Acceder y manipular datos dentro de `DataFrame` y `Series`
  * Importar datos CSV a un `DataFrame` de *Pandas*
  * Reindexar un `DataFrame` para obtener datos aleatorios
  * Leer datos desde una página Web

## 1. Introducción rápida a Pandas

 [*pandas*](http://pandas.pydata.org/) es una API de análisis de datos en columnas, ideal para manipular y analizar datos de entrada. Además, muchos marcos de trabajo de AA admiten las estructuras de datos *pandas* como entradas.
Si bien una introducción detallada a la API de *pandas* abarcaría muchas páginas, los conceptos principales que presentamos a continuación son simples. Para obtener una referencia más completa, el [sitio de documentación de *pandas*](http://pandas.pydata.org/pandas-docs/stable/index.html) incluye una documentación exhaustiva y numerosos instructivos.

### 1.1 Conceptos básicos

La siguiente línea importa la API de *pandas* e imprime la versión de la API:

In [None]:
from __future__ import print_function

import pandas as pd
pd.__version__

 Las estructuras de datos principales en *pandas* están implementadas en dos clases:

  * **`DataFrame`**, que puedes imaginar como una tabla de datos relacional, con filas y columnas con nombre.
  * **`Series`**, que es una columna simple. Una clase `DataFrame` incluye una o más `Series` y un nombre para cada `Series`.

El marco de datos es una abstracción que se usa normalmente para manipular datos. Hay implementaciones similares en [Spark](https://spark.apache.org/) y [R](https://www.r-project.org/about.

 Una manera de crear una `Series` es construir un objeto de `Series`. Por ejemplo:

In [None]:
pd.Series(['San Francisco', 'San Jose', 'Sacramento'])

 Los objetos de `DataFrame` pueden crearse al enviar un `dict` que asigne nombres de columnas de `string` a sus `Series` correspondientes. Si las `Series` no coinciden con la longitud, los valores que falten se completan con valores [NA/NaN](http://pandas.pydata.org/pandas-docs/stable/missing_data.html) especiales. Ejemplo:

In [None]:
city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

# Componer el dataframe a partir de las dos series
pd.DataFrame({ 'Nombre de la ciudad': city_names, 'Población': population })

 Pero por lo general, se carga un archivo completo en un `DataFrame`. El siguiente ejemplo carga un archivo con datos de viviendas de California. Ejecuta la siguiente celda para cargar los datos y crear definiciones de funciones:

In [None]:
california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")

In [None]:
california_housing_dataframe.describe()

 En el ejemplo de arriba, se usó `DataFrame.describe` para mostrar estadísticas interesantes sobre un `DataFrame`. Otra función útil es `DataFrame.head`, que muestra los primeros registros de un `DataFrame`:

In [None]:
california_housing_dataframe.head()

 Otra función util de *pandas* es la generación de gráficos. Por ejemplo, `DataFrame.hist` permite estudiar rápidamente la distribución de los valores en una columna:

In [None]:
import matplotlib.pyplot as plt

california_housing_dataframe.hist('housing_median_age')
plt.title('Edad media de la vivienda')
plt.xlabel('Rango de años')
plt.ylabel('Frecuencia')
plt.grid(True)

 ## Acceso a los datos

Puedes acceder a los datos de `DataFrame` mediante las operaciones convencionales de dict/list de Python:

In [None]:
cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
#print(type(cities['City name']))

cities.head()

cities['City name']

In [None]:
#print(type(cities['City name'][1]))
cities['City name'][1]

In [None]:
print(type(cities[0:2]))
cities[0:2]

 Además, *pandas* proporciona una API muy enriquecida para una [indexación y selección](http://pandas.pydata.org/pandas-docs/stable/indexing.html) avanzadas, que es un tema demasiado amplio como para cubrirlo aquí.

 ## Manipulación de datos

Puedes aplicar operaciones aritméticas básicas de Python a las `Series`. Por ejemplo:

In [None]:
population / 1000.

 [NumPy](http://www.numpy.org/) es un kit de herramientas popular para el cálculo científico. Las `Series` de *pandas* pueden usarse como argumentos para la mayoría de las funciones NumPy:

In [None]:
import numpy as np

np.log(population)

 Para obtener información sobre transformaciones más complejas de una sola columna, puedes usar `Series.apply`. Al igual que la función [función map](https://docs.python.org/2/library/functions.html#map) de Python, `Series.apply` acepta como argumento una función [función lambda](https://docs.python.org/2/tutorial/controlflow.html#lambda-expressions), que se aplica a cada valor.

El siguiente ejemplo crea una nueva `Series` que indica si la `population` es superior a un millón:

In [None]:
population.apply(lambda val: val > 1000000)

 
Modificar `DataFrames` también es simple. Por ejemplo, el siguiente código agrega dos `Series` a un `DataFrame` existente:

In [None]:
cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']
cities

 ## Ejercicio n.º 1

Para modificar la tabla de `cities`, agregar una nueva columna booleana que sea Verdadera si y solo si *ambos* de los siguientes valores son Verdaderos:

  * La ciudad le debe su nombre a un santo.
  * La ciudad tiene un área superior a 50 millas cuadradas.

**Nota:** Las `Series` booleanas se combinan en función de los bits, en lugar de los operadores booleanos tradicionales. Por ejemplo, cuando utilices *logical and*, usa `&` en lugar de `and`.

**Hint:** "San" en español representa "santo".

In [None]:
# Your code here

 ## Índices
Los objetos `Series` y `DataFrame` también definen una propiedad de `index` que asigna un valor de identificador a cada elemento `Series` o fila `DataFrame`.

De forma predeterminada, en la construcción, *pandas* asigna valores de índice que reflejan la solicitud de los datos de origen. Una vez creados, los valores de índice son estables, es decir, no cambian cuando cambia el orden de los datos.

In [None]:
city_names.index

In [None]:
cities.index

In [None]:
cities.head()

 Llama `DataFrame.reindex` para cambiar el orden de las filas de forma manual. Por ejemplo, la siguiente acción tiene el mismo efecto que ordenar los valores por nombre de ciudad:

In [None]:
cities.reindex([2, 0, 1])

 La reindexación es una excelente manera de seleccionar un `DataFrame` de forma aleatoria. En el ejemplo que se muestra a continuación, tomamos el índice, que es del tipo matriz, y lo enviamos a la función `random.permutation` de NumPy, que selecciona sus valores de forma aleatoria. Utilizar la `reindexación` con esta matriz aleatoria provoca que las filas de `DataFrame` se seleccionen de forma aleatoria de la misma manera.
¡Prueba ejecutar la siguiente celda varias veces!

In [None]:
cities.reindex(np.random.permutation(cities.index))

 Para obtener más información, consulta [Documentación de índice](http://pandas.pydata.org/pandas-docs/stable/indexing.html#index-objects).

 ## Ejercicio n.º 2

El método de `reindex` permite valores de índices **que no están** en los valores de índice originales de `DataFrame`. Pruébalo y observa lo que sucede si usas esos valores. ¿Por qué supones que los permite?

In [None]:
# Your code here

## 2. Obtener datos desde una página HTML

1. Obtener los datos de una página web (http://www.sismologia.cl/links/tabla.html), extraer la información relevante y convertirla a un DataFrame.
2. Crear una columna llamada 'magnitud_int' y guardar los valores enteros como tipo de dato float.
3. Imprimir la magnitud máxima.
4. Imprimir la magnitud mínima.
5. Imprimir la magnitud promedio.
6. Imprimir toda la fila del dataFrame donde se encuentra la magnitud máxima.
7. Repetir el ejercicio 3, 4, 5 y 6 solo considerando las magnitudes 'Ml'
8. Separar la fecha de la hora.

Muestre los resultados formateando la salida.

In [None]:
import requests
from bs4 import BeautifulSoup 
import pandas as pd
import numpy as np

response = requests.get('http://www.sismologia.cl/links/tabla.html')

#print(response.content)

soup = BeautifulSoup(response.content)
table = soup.find("table")

print(table)

In [None]:
#print(table)
#print(table.find('tr'))
print(table.find_all('tr'))

for s in table.find_all('tr'):
  print('Fila -->', s)

In [None]:
# Obtengo la primera linea y obtengo los títulos de cada columna
cabecera_tabla = [th.get_text() for th in table.find("tr").find_all("th")]
print(cabecera_tabla)

In [None]:
# Obtengo los datos fila por fila
datasets = []
for row in table.find_all("tr")[1:]:
    dataset = [td.get_text() for td in row.find_all("td")]
    datasets.append(dataset)

for row in datasets:
  print(row)

In [None]:
# Convierto dataFrame (Pandas)
dic = {'Fecha Local':[], 'Lugar':[], 'Magnitud':[]}
for row in table.find_all("tr")[1:]:
    data_row = row.find_all('td')
    dic['Fecha Local'].append(data_row[0].get_text())
    dic['Lugar'].append(data_row[1].get_text())
    dic['Magnitud'].append(data_row[2].get_text())
print(dic)

In [None]:
# Crear dataFrame de un diccionario
df = pd.DataFrame(dic)

df.head(10)

In [None]:
print(df['Magnitud'])

In [None]:
# Operacion sobre columnas
df['Magnitud_entera'] = df['Magnitud'].map(lambda magnitud: float(magnitud[:3]))
df['Fecha'] = df['Fecha Local'].map(lambda f: f[:11])
df.head()


In [None]:
print('Magnitud máxima', np.max(df['Magnitud_entera']))
print('Magnitud mínimo', np.min(df['Magnitud_entera']))
print('Magnitud promedio', np.mean(df['Magnitud_entera']))

# Quiero recuperar la fila con magnitud más alta
#print(df['Magnitud_entera'] == 3.0)
#print(df[df['Magnitud_entera'] == 3.0])

print(df[df['Magnitud_entera'] == np.max(df['Magnitud_entera'])])

print(df[df['Magnitud_entera'] == np.min(df['Magnitud_entera'])])

## Obtener datos de un servidor implementado con API Rest.

1. Obtener el valor del dólar del todo el año 2019 utilizando la API Rest: https://mindicador.cl/.

In [None]:
import requests
import json

response = requests.get('https://mindicador.cl/api/dolar/2021')

print(response.content)

data = json.loads(response.content)
print(data)

# Acceso a JSON como si fuera un diccionario
print(data['nombre'])

# Valor del dolar de todo el 2019 a la fecha
#for valor_dolar in data['serie']:
#  print(valor_dolar['valor'])
  
# DataFrame
df = pd.DataFrame(data['serie'])
df.head()

2. Graficar la variación del dólar para todo el año 2019.

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(15,4))
plt.plot(df['valor'])

3. Convertir un string en formato ISO-8601  a un objeto date


In [None]:
import dateutil.parser
yourdate = dateutil.parser.parse(df['fecha'][0])

print('Imprimir el mes', yourdate.month)


# Grafos

In [None]:
# import the libraries & dataset
import pandas as pd 
data = pd.read_excel('/content/dataset_airline_optimization_problem.xlsx') 
data.head()

Dibujemos el grafo

In [None]:
import networkx as nx

FG = nx.from_pandas_edgelist(data, source='origin', target='dest', edge_attr=True,)
FG.nodes()
FG.edges()
nx.draw_networkx(FG, with_labels=True,node_size=600, node_color='gray') 
nx.algorithms.degree_centrality(FG) 
nx.density(FG) 
nx.average_shortest_path_length(FG)
nx.average_degree_connectivity(FG) 

Calcular los caminos más cortos

In [None]:
# Let us find the dijkstra path from JAX to DFW.
dijpath = nx.dijkstra_path(FG, source='JAX', target='DFW')
print('Dijkstra path: ', dijpath)

# Let us try to find the dijkstra path weighted by airtime (approximate case)
shortpath = nx.dijkstra_path(FG, source='JAX', target='DFW', weight='air_time')
print('dijkstra path weighted by airtime:', shortpath)