# Importar datasets (pandas)

In [None]:
import pandas as pd

## read

```python
pd.read_clipboard
pd.read_csv
pd.read_excel
pd.read_html
pd.read_json
pd.read_sql
pd.read_sql_query
pd.read_sql_table
```

## read_csv

In [None]:
pd.read_csv('datasets/employee.csv')

### read_csv params

* **filepath_or_bufferstr**: `str`, ruta al archivo .csv, puede ser una URL.

> Pandas permite importar un archivo con extensión `csv` a partir de un `zip`, *siempre que el único contenido de ese zip sea UN archivo csv*.

In [None]:
url = 'https://github.com/mattharrison/datasets/raw/master/data/vehicles.csv.zip'
df = pd.read_csv(url)

In [None]:
df.head()

* **sep**, default `‘,’`: `str` criterio de separación.

In [None]:
pd.read_csv('datasets/employee.csv', sep='\t')  # ';', '|'

* **header**: `list of int` índices de las filas que conforman el *header*

In [None]:
pd.read_csv('datasets/employee.csv', header=[0, 1])

* **index_col**: mismo concepto que *header* pero con índices (columna/s a la izquierda del DataFrame)

In [None]:
df = pd.read_csv('datasets/employee.csv', index_col=[0])
df

* **usecols**: `list of ints or list of str` se espefician los índices o nombres de columnas a usar

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('datasets/employee.csv', usecols=[0, 1, 2])
df

In [None]:
df = pd.read_csv('datasets/employee.csv', usecols=['name', 'income', 'department'])
df

* **names**: `list of str` nombres de las columnas a usar

In [None]:
pd.read_csv('datasets/employee.csv', names=['names', 
                                            'age', 
                                            'income', 
                                            'gender', 
                                            'department'])

* **thousands**: `str` separador de *miles*

In [None]:
pd.read_csv('datasets/employee.csv', thousands='.')

* **decimal**: `str` separador de decimales

¡La documentación es tu amiga! [read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

> Por convención se nombra de manera genérica a un dataframe como `df`.

In [None]:
df = pd.read_csv('datasets/employee.csv', index_col=[0]) 

In [None]:
df.head()

In [None]:
df.grade

In [None]:
df.columns

In [None]:
df.index

## read_excel

In [None]:
! pip install openpyxl

In [None]:
pd.read_excel('datasets/employee.xlsx')

### read_excel params

¡La documentación es tu amiga! [read_excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)

## read_json

In [None]:
pd.read_json('datasets/employee.json')

### read_json params

¡La documentación es tu amiga! [read_json](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html)

## read_hdf

*Hierarchical Data Format (HDF)*, conjunto de formatos de archivos (HDF4, HDF5) diseñados para almacenar y organizar grandes cantidades de datos.

In [None]:
! pip install tables

In [None]:
pd.read_hdf('datasets/employee.h5', 'table')

### read_hdf params

¡La documentación es tu amiga! [read_hdf](https://pandas.pydata.org/docs/reference/api/pandas.read_hdf.html)

## read_html

In [None]:
! pip install lxml

In [None]:
table_url = 'https://en.wikipedia.org/wiki/List_of_sandwiches'
pd.read_html(table_url)
type(pd.read_html(table_url))
pd.read_html(table_url)[0]

In [None]:
list_of_sadwiches = pd.read_html(table_url)[0]
list_of_sadwiches

### read_html params

¡La documentación es tu amiga! [read_html](https://pandas.pydata.org/docs/reference/api/pandas.read_hdf.html)

## Ejercicios

Importar datos a partir del archivo `'datasets/montevideo_temperature.csv'` de manera de formar un DataFrame con la fecha como index (de tipo DateTime) y dos *Series* correspondientes a las temperaturas mínima y máxima: