#Importando Archios planos desde la web

Ahora que podemos importar datos en Python de todo tipo de archivos , como txt,.csv, xls, .mat etc.

También ahora que adquirimos experiencia en la consulta de bases de datos relacionales para importar datos de ellas utilizando SQL.

Sin embargo ,todas estas habilidades implican la importación de datos de archivos que tenemos localmente, es decir disponibles en la memoria de nuestra computadora.


Gran parte del tiempo como cientifico de datos, estas habilidades no serán suficiente por que no siempre tendremos los datos que necesitamos, para eso los debemos importar desde la web.

Digamos por ejemplo que queremos im,portar el conjunto de datos de la calidad de vino desde el repositorio de Machine Learning organizado por la universoda de California Irvine.

¿Cómo obtenemos estos archivos de la web?

Ahora podemos usar nuestro navegador web favorito para navegar a la URL relevante que es lo que hemos estado haciendo , sin embargo esto plantea algunos problemas.

* En primer lugar, no está escrito en código y por lo tanto, plantea problemas de reproducibilidad,si otro cientifico de datos quisiera reproducir nuestro flujo de trabajo , necesariamente tendría que hacerlo fuera de Python.

* En segundo lugar , no es escalable si quisieramos descargar cien o mil de estos archivos, nos tomaria cien o mil veces mas , respectivamente , mientras que si li escribimos en código , nuestro flujo de trabajo podría ser escalable.

Como la reproducibilidad y la escalabilidad se encuentran en el corazón de la Ciencia de Datos, nosotros vamos a aprender en este notebook y en los siguientes cómo usar el código de Python para importar y guardad localmente conjuntos de datos de la web.

También aprenderemos cómo cargar dichos conjuntos de datos en Pandas directamente desde la web, ya sean archivos planos o de otro tipo.


Luego colocaremos estas habilidades en el contexto más amplio de hacer solicitudes HTTP, en particular realizaremos solicitudes HTTP GET , que significa obtener datos de la web.

Utilizaremos todas estas habilidades de Solicitud para aprender los conceptos básicos del resplado HTML de internet & usaremos el maravilloso paquete Python BeautiflSoup para analizar HTML y convertirlo en datos.

Existen varios paquetes excelentes que nos ayudan a importar datos web, aqui nos familiarizaremos con urlib y solicitaremos paquetes, primero revisaremos urlib.


Este módulo proporciona una interfaz de alto nivel para obtener datos en la WEB, en particular , la función `urlopen()` es similar a la funión incorporada `open()` pero la diferencia es que `urlopen()` acepta los localizadores de recursos (URL) en lugar de nombres de archivo.

Suficiente , texto es hora de pasas directamente a importar datos desde la web con un ejemplo , importando la calidad del vino blanco.




In [None]:
from urlib.request import urlretrieve
url = 'http://archive.ics.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv'
urlretrieve(url,'winequality-white.csv')


Todo lo que hemos hecho aqui es importar una función llamada `urlretrieve` desde la solicitud  de paquete `urlib` , despues asignamos la URL relevante como cadena de la variable url.

Luego usamos la función `urlretrieve` para escroibir el contenido de la url e un archivo.

## EJEMPLO:

 El archivo plano que importaremos será 'winequality-red.csv' de la Universidad de California, el repositorio de Machine Learning de Irvine. El archivo plano contiene datos tabulares de las propiedades fisicoquímicas del vino tinto, como el pH, el contenido de alcohol y el contenido de ácido cítrico, junto con la calificación de calidad del vino.

Después de importarlo, verificaremos su directorio de trabajo para confirmar que está allí y luego lo cargaremos en un DataFrame de pandas.

In [11]:
# Importar libreria
from urllib.request import urlretrieve

# Importar Pandas
import pandas as pd

# Assignar variable del archivo: url
url = 'https://s3.amazonaws.com/assets.datacamp.com/production/course_1606/datasets/winequality-red.csv'

# Guardar el archivo localmente

urlretrieve(url,'winequality-red.csv')
# Leer archivo en formato Dataframe e imprimirlo.
df = pd.read_csv('winequality-red.csv', sep=';')
print(df.head())

   fixed acidity  volatile acidity  citric acid  ...  sulphates  alcohol  quality
0            7.4              0.70         0.00  ...       0.56      9.4        5
1            7.8              0.88         0.00  ...       0.68      9.8        5
2            7.8              0.76         0.04  ...       0.65      9.8        5
3           11.2              0.28         0.56  ...       0.58      9.8        6
4            7.4              0.70         0.00  ...       0.56      9.4        5

[5 rows x 12 columns]


Acabamos de importar un archivo de la web, lo guardamos localmente y lo cargamos en un DataFrame. Si solo deseamos cargar un archivo de la web en un DataFrame sin guardarlo primero localmente, podemos hacerlo fácilmente con pandas. En particular, podemos usar la función pd.read_csv () con la URL como primer argumento y el separador sep como segundo argumento.

In [15]:
# Importar paquetes
import matplotlib.pyplot as plt
import pandas as pd

# Asignar url del archivo : url
url = 'https://s3.amazonaws.com/assets.datacamp.com/production/course_1606/datasets/winequality-red.csv'


# Leer archivo como un dataframe: df
df = pd.read_csv(url,sep=';')

# Imprimir el dataframe
print(df.head())



   fixed acidity  volatile acidity  citric acid  ...  sulphates  alcohol  quality
0            7.4              0.70         0.00  ...       0.56      9.4        5
1            7.8              0.88         0.00  ...       0.68      9.8        5
2            7.8              0.76         0.04  ...       0.65      9.8        5
3           11.2              0.28         0.56  ...       0.58      9.8        6
4            7.4              0.70         0.00  ...       0.56      9.4        5

[5 rows x 12 columns]


# Importando archivos no planos de la web.

En este ejercicio , usaremos `pd.read_excel()` para importar una hoja de cálculo de Excel.
 Nuestro trabajo es usar `pd.read_excel()` para leer todas sus hojas, imprimir los nombres de las hojas y luego imprimir el encabezado de la primera hoja usando su nombre, no su índice.

Tengamos en cuenta que la salida de pd.read_excel () es un diccionario de Python con nombres de hoja como claves y DataFrames correspondientes como valores correspondientes.

In [16]:
# Importar paquete
import pandas as pd

#  Asignar url del archivo : url
url = 'http://s3.amazonaws.com/assets.datacamp.com/course/importing_data_into_r/latitude.xls'

# Leer archivo excel: xls
xls = pd.read_excel(url,sheet_name=None)

# Imprimir nombres de la tabla
print(xls.keys())

# Imprimir el nombre de la hoa 1700

print(xls['1700'].head())

dict_keys(['1700', '1900'])
                 country       1700
0            Afghanistan  34.565000
1  Akrotiri and Dhekelia  34.616667
2                Albania  41.312000
3                Algeria  36.720000
4         American Samoa -14.307000
