# **Combinando DataFrames con Pandas**

En muchas situations del “mundo real”, los datos que queremos usar proceden de múltiples archivos. Frecuentemente necesitamos combinar estos archivos en un único __DataFrame__ para analizar los datos. El paquete __pandas__ proporciona [varios métodos de combinar __DataFrames__](http://pandas.pydata.org/pandas-docs/stable/merging.html) incluyendo `merge` y `concat`.

Para trabajar en los ejemplos abajo, necesitamos primero cargar los archivos de species y surveys dentro de __pandas DataFrames__. En __Python__:


In [1]:
import pandas as pd
surveys_df = pd.read_csv("../03-clase/pandas_data/pandas_data/surveys.csv",keep_default_na=False, na_values=[""])

In [2]:
surveys_df

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0


In [3]:
species_df = pd.read_csv("../03-clase/pandas_data/pandas_data/species.csv",
                         keep_default_na=False, na_values=[""])

In [4]:
species_df

Unnamed: 0,species_id,genus,species,taxa
0,AB,Amphispiza,bilineata,Bird
1,AH,Ammospermophilus,harrisi,Rodent
2,AS,Ammodramus,savannarum,Bird
3,BA,Baiomys,taylori,Rodent
4,CB,Campylorhynchus,brunneicapillus,Bird
5,CM,Calamospiza,melanocorys,Bird
6,CQ,Callipepla,squamata,Bird
7,CS,Crotalus,scutalatus,Reptile
8,CT,Cnemidophorus,tigris,Reptile
9,CU,Cnemidophorus,uniparens,Reptile


Ten en cuenta que el método `read_csv` que usamos puede tomar opciones adicionales que no hemos usado anteriormente. Muchas funciones en __Python__ tienen un conjunto de opciones que se pueden ser definidas por el usuario si es necesario. En este caso, hemos indicado a __pandas__ que asigne valores vacíos en nuestro __CSV__ como __NaN__ `keep_default_na=False, na_values=[""]`.
[Explora sobre todas las optciones de `read_csv` a través de este enlace.](http://pandas.pydata.org/pandas-docs/dev/generated/pandas.io.parsers.read_csv.html)

# Concatenando DataFrames

Podemos usar la función `concat` en pandas para agregar columnas o filas de un __DataFrame__ a otro. Tomemos dos subconjuntos de nuestros datos para ver cómo esto trabaja.


In [5]:
# Lee las primeras 10 líneas de la tabla de encuestas.
survey_sub = surveys_df.head(10)

In [6]:
# Agarra las últimas 10 filas
survey_sub_last10 = surveys_df.tail(10)
survey_sub_last10

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
35539,35540,12,31,2002,15,PB,F,26.0,23.0
35540,35541,12,31,2002,15,PB,F,24.0,31.0
35541,35542,12,31,2002,15,PB,F,26.0,29.0
35542,35543,12,31,2002,15,PB,F,27.0,34.0
35543,35544,12,31,2002,15,US,,,
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0
35548,35549,12,31,2002,5,,,,


In [7]:
# Restablecer los valores de índice a la segunda __DataFrame__ adjunta correctamente
survey_sub_last10=survey_sub_last10.reset_index(drop=True)
# drop=True opción evita agregar una nueva columna de índice con valores de índice antiguos
survey_sub_last10

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,35540,12,31,2002,15,PB,F,26.0,23.0
1,35541,12,31,2002,15,PB,F,24.0,31.0
2,35542,12,31,2002,15,PB,F,26.0,29.0
3,35543,12,31,2002,15,PB,F,27.0,34.0
4,35544,12,31,2002,15,US,,,
5,35545,12,31,2002,15,AH,,,
6,35546,12,31,2002,15,AH,,,
7,35547,12,31,2002,10,RM,F,15.0,14.0
8,35548,12,31,2002,7,DO,M,36.0,51.0
9,35549,12,31,2002,5,,,,


Cuando concatenamos __DataFrames__, necesitamos especificar el eje. `axis=0` dice pandas para apilar el segundo __DataFrame__ debajo del primero. Será automáticamente detecta si los nombres de las columnas son iguales y se apilarán en consecuencia. `axis=1` apilará las columnas en el segundo __DataFrame__ a la DERECHA del primer __DataFrame__. Para apilar los datos verticalmente, necesitamos asegurarnos de que tenemos las mismas columnas y el formato de columna asociado en los dos datasets. Cuando apilamos horizontalmente, queremos asegurarnos de que lo que estamos haciendo tiene sentido (es decir, los datos son relacionados de alguna manera).

In [8]:
# Apilar los __DataFrames__ uno encima del otro
vertical_stack = pd.concat([survey_sub, survey_sub_last10], axis=0)
vertical_stack

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
5,6,7,16,1977,1,PF,M,14.0,
6,7,7,16,1977,2,PE,F,,
7,8,7,16,1977,1,DM,M,37.0,
8,9,7,16,1977,1,DM,F,34.0,
9,10,7,16,1977,6,PF,F,20.0,


In [9]:
# Coloque los __DataFrames__ de lado a lado
horizontal_stack = pd.concat([survey_sub, survey_sub_last10], axis=1)
horizontal_stack

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight,record_id.1,month.1,day.1,year.1,plot_id.1,species_id.1,sex.1,hindfoot_length.1,weight.1
0,1,7,16,1977,2,NL,M,32.0,,35540,12,31,2002,15,PB,F,26.0,23.0
1,2,7,16,1977,3,NL,M,33.0,,35541,12,31,2002,15,PB,F,24.0,31.0
2,3,7,16,1977,2,DM,F,37.0,,35542,12,31,2002,15,PB,F,26.0,29.0
3,4,7,16,1977,7,DM,M,36.0,,35543,12,31,2002,15,PB,F,27.0,34.0
4,5,7,16,1977,3,DM,M,35.0,,35544,12,31,2002,15,US,,,
5,6,7,16,1977,1,PF,M,14.0,,35545,12,31,2002,15,AH,,,
6,7,7,16,1977,2,PE,F,,,35546,12,31,2002,15,AH,,,
7,8,7,16,1977,1,DM,M,37.0,,35547,12,31,2002,10,RM,F,15.0,14.0
8,9,7,16,1977,1,DM,F,34.0,,35548,12,31,2002,7,DO,M,36.0,51.0
9,10,7,16,1977,6,PF,F,20.0,,35549,12,31,2002,5,,,,


### Valores de índice de fila y Concat
¿Dale una ojeada al `vertical_stack` __DataFrame__? ¿Notaste algo inusual?
Los índices de fila para los dos data frames `survey_sub` y` survey_sub_last10` se han repetido. Podemos reindexar el nuevo data frame usando el método `reset_index()`.

## Escribiendo datos a CSV

Podemos usar el comando `to_csv` para exportar un __DataFrame__ en formato CSV. Nota que el código a continuación guardará los datos por defecto en el directorio de trabajo corriente. Podemos guárdelo en un directorio diferente agregando el nombre de la carpeta y una barra al archivo `vertical_stack.to_csv ('foldername/out.csv')`. Usamos el 'índice = Falso' para que pandas no incluye el número de índice para cada línea.

In [10]:
# Escribe el __DataFrame__ a CSV
vertical_stack.to_csv('output/data/out.csv', index=False)

Revise su directorio de trabajo para asegurarse de que el CSV se haya escrito correctamente, y que puedas abrirlo! Si quieres, intenta subirlo de vuelta a Python para asegurarte se importa correctamente.

In [11]:
# lee nuestro archivo en Python y asegúrese de que todo se vea bien.
new_output = pd.read_csv('output/data/out.csv', keep_default_na=False, na_values=[""])

# Unión de los __DataFrames__

Cuando concatenamos nuestros __DataFrames__, simplemente los agregamos unos a otros - apilándolos verticalmente o lado a lado. Otra forma de combinar __DataFrames__ es usar columnas en cada dataset que contienen valores comunes (un ID única común). Combinando __DataFrames__ utilizando un campo común se llama "__joining__" (unión). Las columnas que contienen los valores comunes se llaman "__join key(s)__" (claves de unión). Muchas veces uniendo __DataFrames__ de esta manera es útil cuando un __DataFrame__ es una "__lookup table__" (tabla de búsqueda) que contiene datos adicionales que queremos incluir en el otro __DataFrame__.

NOTA: Este proceso de unir tablas es similar a lo que hacemos con las tablas en una base de datos SQL.


Por ejemplo, el archivo `species.csv` con el que hemos estado trabajando es una tabla de búsqueda. Esta tabla contiene el código de género, especie y taxa para 55 especies. El código de la especie es único para cada línea. Estas especies se identifican en los datos de nuestra encuesta y también utilizan el código único de especies. En lugar de agregar 3 columnas más para el género, las especies y los taxones a cada una de las 35,549 líneas de la tabla de datos de la encuesta, podemos mantener la tabla más corta con la información de la especie. Cuando queremos accesar esa información, podemos crear una consulta que une las columnas adicionales de información a los datos de la encuesta.

Almacenar los datos de esta manera tiene muchos beneficios, entre ellos:

1. Asegura la consistencia en la ortografía de los atributos de las especies (género, especie y taxones) dado que cada especie solo se ingresa una vez. ¡Imagine las posibilidades de errores de ortografía al ingresar el género y las especies miles de veces!

2. También nos facilita realizar cambios en la información de la especie una vez sin tener que encontrar cada instancia en los datos de la encuesta.

3. Optimiza el tamaño de nuestros datos.

## Unión de Dos __DataFrames__

Para comprender mejor las uniones, tomemos las primeras 10 líneas de nuestros datos como un subconjunto con para trabajar. Usaremos el método `.head` para hacer esto. También vamos a importar un subconjunto de la tabla de especies.


In [12]:
# Lee las primeras 10 líneas de la tabla de encuestas.
survey_sub = surveys_df.head(10)

# Importe un penqueño subconjunto de los datos de especies diseñados para esta parte de la lección.
# Esa archivado en la carpeta de datos.
species_sub = pd.read_csv('../03-clase/pandas_data/pandas_data/speciesSubset.csv', keep_default_na=False, na_values=[""])

En este ejemplo, `species_sub` es la tabla de búsqueda que contiene género, especie y nombres de taxa que queremos unir con los datos en `survey_sub` para producir un nuevo __DataFrame__ que contiene todas las columnas de `species_df` *y* `survey_df`.

## Identifying join keys

Para identificar las claves de combinación adecuadas, primero necesitamos saber cuáles campos son compartidos entre los archivos (__DataFrames__). Podríamos inspeccionar los dos __DataFrames__ para identificar estas columnas. Si tenemos suerte, los dos __DataFrames__ tendrán columnas con el mismo nombre que también contienen los mismos datos. Si somos menos afortunados, necesitamos identificar una columna (con nombre diferente) en cada DataFrame que contiene la misma información.

In [13]:
species_sub.columns

Index(['species_id', 'genus', 'species', 'taxa'], dtype='object')

In [14]:
survey_sub.columns

Index(['record_id', 'month', 'day', 'year', 'plot_id', 'species_id', 'sex',
       'hindfoot_length', 'weight'],
      dtype='object')

En nuestro ejemplo, la clave de unión es la columna que contiene el identificador de especie de dos letras, que se llama `species_id`.

Ahora que conocemos los campos con los atributos de ID de especies comunes en cada __DataFrame__, estamos casi listos para unir nuestros datos. Sin embargo, porque hay
[diferentes tipos de uniones](http://blog.codinghorror.com/a-visual-explanation-of-sql-joins/), también debemos decidir qué tipo de unión tiene sentido para nuestro análisis.


## Uniones internas

El tipo más común de unión se llama __inner join__ (unión interna). Una combinación interna combina dos __DataFrames__ basados en una clave de unión y devuelve un nuevo __DataFrame__ que contiene __solo__ aquellas filas que tienen valores coincidentes entre los dos __DataFrames__ originales.

Las uniones internas producen un __DataFrame__ que contiene solo filas donde el valor que es el subjecto de la unión existe en las dos tablas. Un ejemplo de una unión interna, adaptado de [esta página](http://blog.codinghorror.com/a-visual-explanation-of-sql-joins/) se encuentra a continuación:


La función en pandas para realizar uniones se llama `merge` y una unión interna es
la opción por defecto:

In [15]:
merged_inner = pd.merge(left=survey_sub,right=species_sub, left_on='species_id', right_on='species_id')
# En este caso, `species_id` es el único nombre de columna en los dos __DataFrames__, entonces si omitimos
# los argumentos `left_on` y `right_on` todavía obtendríamos el mismo resultado

In [16]:
# ¿Cuál es el tamaño de los datos en el resultado?
merged_inner.shape

(8, 12)

In [17]:
merged_inner

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight,genus,species,taxa
0,1,7,16,1977,2,NL,M,32.0,,Neotoma,albigula,Rodent
1,2,7,16,1977,3,NL,M,33.0,,Neotoma,albigula,Rodent
2,3,7,16,1977,2,DM,F,37.0,,Dipodomys,merriami,Rodent
3,4,7,16,1977,7,DM,M,36.0,,Dipodomys,merriami,Rodent
4,5,7,16,1977,3,DM,M,35.0,,Dipodomys,merriami,Rodent
5,8,7,16,1977,1,DM,M,37.0,,Dipodomys,merriami,Rodent
6,9,7,16,1977,1,DM,F,34.0,,Dipodomys,merriami,Rodent
7,7,7,16,1977,2,PE,F,,,Peromyscus,eremicus,Rodent


El resultado de una unión interna de `survey_sub` y `species_sub` es un nuevo __DataFrame__ que contiene el conjunto combinado de columnas de `survey_sub` y `species_sub`. *Solo* contiene filas que tienen códigos de dos letras de especies que son iguales en el `survey_sub` y el `species_sub` __DataFrames__. En otras palabras, si una fila en `survey_sub` tiene un valor de `species_id` que *no* aparece en la `species_id` columna de `species`, no será incluirá en el __DataFrame__ devuelto por una unión interna. Del mismo modo, si una fila en `species_sub` tiene un valor de `species_id` que *no* aparece en la columna `species_id` de `survey_sub`, esa fila no será incluida en el __DataFrame__ devuelto por una unión interna.

Los dos __DataFrames__ a los que queremos unir se pasan a la función `merge` usando el argumento de `left` y `right`. El argumento `left_on = 'species'` le dice a `merge` que use la columna `species_id` como la clave de unión de `survey_sub` (el `left` __DataFrame__). De manera similar, el argumento `right_on = 'species_id'` le dice a `merge` que use la columna `species_id` como la clave de unión de` species_sub` (el `right` __DataFrame__). Para uniones internas, el orden de los argumentos `left` y` right` no importa.

El resultado `merged_inner` __DataFrame__ contiene todas las columnas de`survey_sub`
(ID de registro, mes, día, etc.), así como todas las columnas de `species_sub`
(especies_id, género, especie y taxa).

Date cuenta que `merged_inner` tiene menos filas que `survey_sub`. Esto es una indicación de que había filas en `survey_df` con valor(es) para `species_id` que no existen como valor(es) para `species_id` en `species_df`.

## Unión izquierda

¿Qué pasa si queremos agregar información de `species_sub` a `survey_sub` sin
perdiendo información de `survey_sub`? En este caso, utilizamos un diferente
tipo de unión llamada "__left outer join__ (unión externa izquierda)", or a "__left join__ (unión izquierda)".

Como una combinación interna, una unión izquierda utiliza las claves de unión para combinar dos __DataFrames__. Diferente a una unión interna, una unión izquierda devolverá *todas* las filas del `left` __DataFrame__, hasta aquellas filas cuyas claves de unión no tienen valores en el `right` __DataFrame__. Filas en el `left` __DataFrame__ que faltan valores para las clave(s) de unión en el `right` __DataFrame__ simplemente tendrán valores nulos (es decir, NaN o Ninguno) para las columnas en el resultante __DataFrame__ unido.

Nota: una unión izquierda todavía descartará las filas del `right` __DataFrame__ que no tienen valores para la(s) clave(s) de unión en el `left` __DataFrame__.

Una unión izquierda se realiza en pandas llamando a la misma función `merge` utilizada para unión interna, pero usando el argumento `how = 'left'`:

In [18]:
merged_left = pd.merge(left=survey_sub,right=species_sub, how='left', left_on='species_id', right_on='species_id')

In [19]:
merged_left

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight,genus,species,taxa
0,1,7,16,1977,2,NL,M,32.0,,Neotoma,albigula,Rodent
1,2,7,16,1977,3,NL,M,33.0,,Neotoma,albigula,Rodent
2,3,7,16,1977,2,DM,F,37.0,,Dipodomys,merriami,Rodent
3,4,7,16,1977,7,DM,M,36.0,,Dipodomys,merriami,Rodent
4,5,7,16,1977,3,DM,M,35.0,,Dipodomys,merriami,Rodent
5,6,7,16,1977,1,PF,M,14.0,,,,
6,7,7,16,1977,2,PE,F,,,Peromyscus,eremicus,Rodent
7,8,7,16,1977,1,DM,M,37.0,,Dipodomys,merriami,Rodent
8,9,7,16,1977,1,DM,F,34.0,,Dipodomys,merriami,Rodent
9,10,7,16,1977,6,PF,F,20.0,,,,


El resultado __DataFrame__ de una unión izquierda (`merged_left`) se parece mucho al resultado __DataFrame__ de una unión interna (`merged_inner`) en términos de las columnas que contiene. Sin embargo, a diferencia de `merged_inner`, `merged_left` contiene el __mismo número de filas__ como el __DataFrame__ original `survey_sub`. Cuando inspeccionamos `merged_left`, encontramos que hay filas donde la información debería haber venido de `species_sub` (es decir,` species_id`, `genus` y` taxa`) hace falta (contienen valores de NaN):

In [20]:
merged_left[pd.isnull(merged_left.genus)]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight,genus,species,taxa
5,6,7,16,1977,1,PF,M,14.0,,,,
9,10,7,16,1977,6,PF,F,20.0,,,,


Estas filas son aquellas en las que el valor de `species_id` de`survey_sub` (en este
caso, `PF`) no ocurre en`species_sub`.

## Otros tipos de unión

La función `merge` de pandas admite otros dos tipos de unión:
  * __Right (outer) join__ unión derecha (exterior): se invoca al pasar `how = 'right'` como argumento. Similar a una unión izquierda, excepto que se guardan *todas* las filas del `right` __DataFrame__, mientras que las filas del `left` __DataFrame__ sin coincidir con los valores de las claves de unión son descartadas.
  * __Full (outer) join__ unión completa (externa): se invoca al pasar `how = 'outer'` como argumento. Este tipo de unión devuelve todas las combinaciones de filas de los dos __DataFrames__; es decir., el __DataFrame__ resultante estará `NaN` donde faltan datos en uno de los __DataFrames__. Este tipo de unión es muy raramente utilizado.