## Ingestión de Datos en Pandas

Cuando se analizan datos, es común que estos provengan de varias fuentes:

* Archivos CSV
* Archivos de Excel
* Bases de Datos
* Enlaces Locales o Remotos

Pandas provee una variedad de funciones dedicadas a la ingestión de datos, pues dentro de cada una de estas categorías (y otras) pueden existir muchas diferencias entre un formato y otro.

La documentación de estas funciones puede encontrarse acá: 

https://pandas.pydata.org/pandas-docs/stable/reference/io.html

In [1]:
# Empezamos importando los paquetes relevantes:
import pandas as pd

### Consultando documentación:

Cuando una librería se encuentra bien documentada, se puede utilizar la función de **help** para consultar la documentación de esa funcion, directamente dentro de Jupyter. Por ejemplo, en este documento vamos a explorar la función **read_csv**, utilizada para ingerir **archivos separados por coma**. Este es un formato estandar, y puede ser generado desde archivos de excel, manejadores de bases de datos, etc.

Podemos entonces consultar su documentación con el siguiente comando:

In [2]:
# Despliegue y revise la información de read_csv usando este comando:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
    Read a comma-separated values (csv) file into DataFrame.
    
    Also supports option

Como es evidente, la función **read_csv** posee una cantidad inmensa de posibles entradas. Sin embargo, muchas de ellas (todas las que siguen el formato de *nombre=valor*) **son opcionales**. La única entrada obligatoria es la primera: **filepath_or_buffer**, que recibe la dirección del archivo que se está cargando.

Para el siguiente ejemplo, asegúrese de haber descargado el archivo **titanic.csv** y haberlo colocado en el mismo directorio que este *notebook*.

In [3]:
# Cargamos el dataframe

df = pd.read_csv("titanic.csv")

In [4]:
# Imprimimos las primeras columnas para asegurarnos de que se cargó correctamente:

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


La función **read_csv** se encarga de cargar los datos de manera automatica, **siempre y cuando el archivo se encuentre en un formato estándar**. Exploremos el archivo titanic.csv abriéndolo en un editor de texto como Block de Notas:

Podemos observar algunas características que concuerdan con los **valores por defecto** para los argumentos de la función **read_csv**:

* Los nombres de las columnas se encuentran en la primera linea del archivo, separados por coma
* Cada linea del archivo representa una observación
* Los valores nulos son omitidos en el archivo (ver penultimo valor de la primera observación)
* Los strings que contienen espacios se encuentran rodeados por comillas

**Si el archivo que estamos cargando no cumple con esta u otras propiedades por defecto, será necesario utilizar los parámetros opcionales de la función para ingerirlo de manera correcta**.

Para el siguiente ejemplo, asegúrese de haber descargado el archivo **airquality.csv** y haberlo colocado en el mismo directorio que este *notebook*.

Abra el archivo airquality.csv en un editor de texto y explore sus contenidos:

Este dataset corresponde a medidas de calidad de aire hechas regularmente por 4 centros de observación. Posee una columna de timestamp que representa la fecha y hora en la que se tomó la medida, y 4 valores que corresponden a las medidas hechas por los 4 centros de observación. Sin embargo, podemos ver varias diferencias en el formato con respecto al archivo anterior:

* La segunda linea posee información de medida que no debe ser incluida en el dataset resultante.
* El separador usado es el **punto y coma** (;), no la coma sencilla.
* Los valores nulos no están en blanco, sino que usan el string **n/d** (ver primera observación).

En este caso debemos usar los parametros opcionales **sep** para indicar el separador diferente, **skiprows** para ignorar la fila 1 (recordemos que incluso los archivos se indixan a partir de 0) del archivo y **na_values** para que interprete n/d como valores vacios.

In [5]:
# Ingestión erronea sin usar parametros opcionales:
df = pd.read_csv("airquality.csv")
df.head()

Unnamed: 0,timestamp;BASCH;BONAP;PA18;VERS
0,;microg/m3;microg/m3;microg/m3;microg/m3
1,2000-01-01 01:00:00;108.0;n/d;65.0;47.0
2,2000-01-01 02:00:00;104.0;60.0;77.0;42.0
3,2000-01-01 03:00:00;97.0;58.0;73.0;34.0
4,2000-01-01 04:00:00;77.0;52.0;57.0;29.0


In [6]:
# Información erronea, declarando sólo una columna:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149040 entries, 0 to 149039
Data columns (total 1 columns):
timestamp;BASCH;BONAP;PA18;VERS    149040 non-null object
dtypes: object(1)
memory usage: 1.1+ MB


In [7]:
# Ingestión correcta especificando los parámetros correctos:
df = pd.read_csv("airquality.csv", sep=";", skiprows=[1], na_values=["n/d"])
df.head()

Unnamed: 0,timestamp,BASCH,BONAP,PA18,VERS
0,2000-01-01 01:00:00,108.0,,65.0,47.0
1,2000-01-01 02:00:00,104.0,60.0,77.0,42.0
2,2000-01-01 03:00:00,97.0,58.0,73.0,34.0
3,2000-01-01 04:00:00,77.0,52.0,57.0,29.0
4,2000-01-01 05:00:00,79.0,52.0,64.0,28.0


In [8]:
# Información correcta, con columnas diferenciadas
# y valores nulos reconocidos.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149039 entries, 0 to 149038
Data columns (total 5 columns):
timestamp    149039 non-null object
BASCH        139949 non-null float64
BONAP        136493 non-null float64
PA18         142259 non-null float64
VERS         143813 non-null float64
dtypes: float64(4), object(1)
memory usage: 5.7+ MB


Como es evidente, el proceso de ingestión va a depender mucho del formato en el que se encuentre el set de datos.

**Tip:** read_csv y las otras funciones de lectura permiten como entrada direcciones de **recursos externos**, no solamente archivos locales.

In [9]:
poke_df = pd.read_csv("https://raw.githubusercontent.com/fireblend-clases/pandas-tutorial/master/data/pokemon.csv")
poke_df.head()

Unnamed: 0,abilities,against_bug,against_dark,against_dragon,against_electric,against_fairy,against_fight,against_fire,against_flying,against_ghost,...,percentage_male,pokedex_number,sp_attack,sp_defense,speed,type1,type2,weight_kg,generation,is_legendary
0,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,1,65,65,45,grass,poison,6.9,1,0
1,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,2,80,80,60,grass,poison,13.0,1,0
2,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,3,122,120,80,grass,poison,100.0,1,0
3,"['Blaze', 'Solar Power']",0.5,1.0,1.0,1.0,0.5,1.0,0.5,1.0,1.0,...,88.1,4,60,50,65,fire,,8.5,1,0
4,"['Blaze', 'Solar Power']",0.5,1.0,1.0,1.0,0.5,1.0,0.5,1.0,1.0,...,88.1,5,80,65,80,fire,,19.0,1,0


### Cambio de Índice

El índice que se le asigna a un DataFrame por defecto siempre es una columna que va desde 0 y hasta el número de observaciones-1. Sin embargo, es posible indicar como parte de la ingestión, si se desea usar otro índice, como por ejemplo alguna de las columnas del DataFrame.

En el DataFrame de observaciones de calidad de aire (airquality.csv) la columna de **timestamp** puede ser usada como índice, debido a que **no posee valores repetidos**.

En ese caso, podemos usar el argumento **index_col** en read_csv para indicar la columna a usar como índice:

In [10]:
# Se indica la columna de timestamp como índice:
air_q = pd.read_csv("airquality.csv", sep=";", skiprows=[1], na_values=["n/d"], index_col=["timestamp"])

air_q.head()

Unnamed: 0_level_0,BASCH,BONAP,PA18,VERS
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000-01-01 01:00:00,108.0,,65.0,47.0
2000-01-01 02:00:00,104.0,60.0,77.0,42.0
2000-01-01 03:00:00,97.0,58.0,73.0,34.0
2000-01-01 04:00:00,77.0,52.0,57.0,29.0
2000-01-01 05:00:00,79.0,52.0,64.0,28.0


Como puede observarse, el indice ya no es un rango numérico a partir de 0, sino una fecha y hora.

In [11]:
air_q.index

Index(['2000-01-01 01:00:00', '2000-01-01 02:00:00', '2000-01-01 03:00:00',
       '2000-01-01 04:00:00', '2000-01-01 05:00:00', '2000-01-01 06:00:00',
       '2000-01-01 07:00:00', '2000-01-01 08:00:00', '2000-01-01 09:00:00',
       '2000-01-01 10:00:00',
       ...
       '2016-12-31 14:00:00', '2016-12-31 15:00:00', '2016-12-31 16:00:00',
       '2016-12-31 17:00:00', '2016-12-31 18:00:00', '2016-12-31 19:00:00',
       '2016-12-31 20:00:00', '2016-12-31 21:00:00', '2016-12-31 22:00:00',
       '2016-12-31 23:00:00'],
      dtype='object', name='timestamp', length=149039)

Al intercambiar el índice por uno diferente, el método de indexación cambia.

Por ejemplo, ahora podemos referirnos a una observación por la fecha y hora en la que fue obtenida, usando la propiedad **loc** del DataFrame:

In [12]:
air_q.loc['2016-12-31 14:00:00']

BASCH    80.0
BONAP    58.0
PA18     52.0
VERS     23.0
Name: 2016-12-31 14:00:00, dtype: float64

O las observaciones entre dos momentos en el tiempo:

In [13]:
air_q.loc['2015-12-31 14:00:00':'2015-12-31 18:00:00']

Unnamed: 0_level_0,BASCH,BONAP,PA18,VERS
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-12-31 14:00:00,92.0,48.0,23.0,12.0
2015-12-31 15:00:00,109.0,56.0,29.0,11.0
2015-12-31 16:00:00,138.0,63.0,41.0,17.0
2015-12-31 17:00:00,126.0,70.0,61.0,18.0
2015-12-31 18:00:00,143.0,73.0,68.0,24.0


No es necesario especificar el índice a ser utilizado durante la ingestión. Por ejemplo, el dataset de Pokemon cargado anteriormente tiene el índice por defecto a partir de 0:

In [14]:
poke_df.index

RangeIndex(start=0, stop=801, step=1)

Pero este index puede ser sobreescrito por algún otro valor, como una columna. En este caso podemos usar el nombre de cada Pokemon en el dataset:

In [15]:
poke_df.index = poke_df.name

In [16]:
poke_df.index

Index(['Bulbasaur', 'Ivysaur', 'Venusaur', 'Charmander', 'Charmeleon',
       'Charizard', 'Squirtle', 'Wartortle', 'Blastoise', 'Caterpie',
       ...
       'Lunala', 'Nihilego', 'Buzzwole', 'Pheromosa', 'Xurkitree',
       'Celesteela', 'Kartana', 'Guzzlord', 'Necrozma', 'Magearna'],
      dtype='object', name='name', length=801)

In [17]:
poke_df.head(3)

Unnamed: 0_level_0,abilities,against_bug,against_dark,against_dragon,against_electric,against_fairy,against_fight,against_fire,against_flying,against_ghost,...,percentage_male,pokedex_number,sp_attack,sp_defense,speed,type1,type2,weight_kg,generation,is_legendary
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Bulbasaur,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,1,65,65,45,grass,poison,6.9,1,0
Ivysaur,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,2,80,80,60,grass,poison,13.0,1,0
Venusaur,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,3,122,120,80,grass,poison,100.0,1,0


Si quisieramos deshacer este cambio, resetear el índice del DataFrame para asignarle el que Pandas usaría por defecto:

In [18]:
poke_df = poke_df.reset_index(drop=True)
poke_df.index

RangeIndex(start=0, stop=801, step=1)

## Escritura a archivos

Es común el querer almacenar DataFrames en la forma de archivos csv, ya sea para guardar los resultados de un proceso de limpieza o transformación, compartir resultados o pasar un DataFrame a otro ambiente de análisis como **Tableau** o **R**.

Para esto, puede usarse la función **to_csv**:

In [19]:
# Escribe el estado actual del DataFrame al archivo "pokemon.csv"
poke_df.to_csv("pokemon.csv")