## Ejemplo 5: Concat con DataFrames

### 1. Objetivos:
    - Usar pd.concat para concatenar `DataFrames`
 
---
    
### 2. Desarrollo:

Exactamente los mismos principios aplican a la concatenación de `DataFrames`

In [14]:
import pandas as pd

Considera los siguientes dos DataFrames:

In [15]:
data_1 = {
    'column_1': [1, 2, 3],
    'column_2': [4, 5, 6]
}

df_1 = pd.DataFrame(data_1, index=['a', 'b', 'c'])
df_1

Unnamed: 0,column_1,column_2
a,1,4
b,2,5
c,3,6


In [16]:
data_2 = {
    'column_1': [7, 8, 9],
    'column_2': [10, 11, 12]
}

df_2 = pd.DataFrame(data_1, index=['d', 'e', 'f'])
df_2

Unnamed: 0,column_1,column_2
d,1,4
e,2,5
f,3,6


Para unirlos verticalmente usamos:

`pd.concat(-lista de dataframes-, axis=0)`

In [17]:
pd.concat([df_1, df_2])

Unnamed: 0,column_1,column_2
a,1,4
b,2,5
c,3,6
d,1,4
e,2,5
f,3,6


Horizontalmente con `axis=1`:

In [18]:
pd.concat([df_1, df_2], axis=1)

Unnamed: 0,column_1,column_2,column_1.1,column_2.1
a,1.0,4.0,,
b,2.0,5.0,,
c,3.0,6.0,,
d,,,1.0,4.0
e,,,2.0,5.0
f,,,3.0,6.0


Si dos DataFrames tienen el mismo índice, evitamos los `NaNs`:

In [19]:
data_3 = {
    'column_3': [7, 8, 9],
    'column_4': [10, 11, 12]
}

df_3 = pd.DataFrame(data_3, index=['a', 'b', 'c'])
df_3

Unnamed: 0,column_3,column_4
a,7,10
b,8,11
c,9,12


Concatenamos los DataFrames 1 y 3 en horizontal:

In [20]:
pd.concat([df_1, df_3], axis=1)

Unnamed: 0,column_1,column_2,column_3,column_4
a,1,4,7,10
b,2,5,8,11
c,3,6,9,12


Si concatenamos verticalmente con el mismo índice, no podemos diferenciarlos:

In [21]:
data_4 = {
    'column_1': [7, 8, 9],
    'column_2': [10, 11, 12]
}

df_4 = pd.DataFrame(data_4, index=['a', 'b', 'c'])
df_4

Unnamed: 0,column_1,column_2
a,7,10
b,8,11
c,9,12


Concatenamos los DataFrames 1 y 4 en vertical (`axis=0`):

In [22]:
pd.concat([df_1, df_4])

Unnamed: 0,column_1,column_2
a,1,4
b,2,5
c,3,6
a,7,10
b,8,11
c,9,12


Podemos agregar multi índices `df_1` y `df_4` haciendo uso de 

`keys=-lista de índices-`:

In [24]:
df = pd.concat([df_1, df_4], keys=["df_1", "df_4"])
df

Unnamed: 0,Unnamed: 1,column_1,column_2
df_1,a,1,4
df_1,b,2,5
df_1,c,3,6
df_4,a,7,10
df_4,b,8,11
df_4,c,9,12


Y podemos accesarlos de igual manera, imprime los elementos del dataframe con etiqueta `df_1` usando la forma `df.loc[-etiqueta-]`:

In [25]:
df.loc["df_1"]

Unnamed: 0,column_1,column_2
a,1,4
b,2,5
c,3,6


Ahora imprime la fila `b` del dataframe `df_4` usando la forma `df.loc[(-etiqueta 1-, -etiqueta 2-)]`:

In [26]:
df.loc["df_4", "b"]

column_1     8
column_2    11
Name: (df_4, b), dtype: int64

¿Y si quicieramos la columna_2 de la fila b del dataframe df_4?

In [27]:
df.loc["df_4", "b"]["column_2"]

11

In [28]:
df.loc["df_4", "b"].loc["column_2"]

11

También podemos unir más de dos `DataFrames` agregándolos todos a la lista, recuerda la forma `df.concat(-lista de dataframes-, index=0)`, con `index=0` la concatenación es por columnas, entonces vamos a unir los dataframes `df_1`, `df_2`, `df_3` y `df_4` en dirección horizontal: 

In [32]:
pd.concat([df_1, df_2, df_3, df_4], axis=0)

Unnamed: 0,column_1,column_2,column_3,column_4
a,1.0,4.0,,
b,2.0,5.0,,
c,3.0,6.0,,
d,1.0,4.0,,
e,2.0,5.0,,
f,3.0,6.0,,
a,,,7.0,10.0
b,,,8.0,11.0
c,,,9.0,12.0
a,7.0,10.0,,


---
---

## Reto 5: Concatenación de `Series` y `DataFrames`

### 1. Objetivos:
    - Practicar la concatenación de `Series` y `DataFrames` usando `np.concat` y `pandas.DataFrame.append`
 
### 2. Desarrollo:

### a) Sumando ventas por producto y por mes

Eres el analista financiero de EyePoker Inc. Tienes 12 listas con datos. Cada lista contiene la cantidad de unidades vendidas por producto en un mes determinado.

Tienes también una lista con los nombres de los productos que ofrece la empresa. 

Tanto las listas de ventas como la lista de nombres están ordenadas igual. Eso quiere decir que cada índice de cada lista pertenece a datos del mismo producto (es decir, `ventas_enero[3]`, `ventas_febrero[3]`, `ventas_marzo[3]`, `ventas_abril[3]`, etc, todas pertenecen al producto en `productos[3]`).

Tu reto es el siguiente:

1. Convierte las listas en `Series` de pandas.
2. Concatena horizontalmente las `Series` de ventas de manera que cada fila del `DataFrame` resultante corresponda al mismo producto.
3. En alguno de los pasos anteriores, agrega los nombres de los productos como índice.
4. Crea una nueva columna llamada `total_por_producto` que contenga la suma horizontal de las ventas mensuales de cada producto (es decir, un resumen de las ventas del año por producto).
5. Agrega también una fila hasta el final que tenga como índice `total_por_mes` que contenga la suma vertical de las ventas de cada mes (la última celda va a ser la suma total de las ventas de todos los productos en todo el año).

> **Tip**: Para hacer el paso número 5, busca en Google el método `pandas.DataFrame.append`.

In [None]:
productos = ["Pokemaster", "Cegatron", "Pikame Mucho",
    "Lazarillo de Tormes", "Stevie Wonder", "Needle",
    "El AyMeDuele", "El Desretinador", "Sacamel Ojocles",
    "Desojado", "Maribel Buenas Noches", "Cíclope",
    "El Cuatro Ojos"]

ventas_enero = [3, 5, 4, 45, 2, 32, 7, 89, 7, 6, 24, 51, 12]
ventas_febrero = [7, 9, 0, 76, 4, 34, 1, 2, 34, 67, 8, 9, 0]
ventas_marzo = [1, 1, 3, 56, 7, 98, 2, 34, 1, 0, 23, 1, 12]
ventas_abril = [2, 34, 2, 1, 56, 78, 23, 3, 4, 23, 1, 78, 9]
ventas_mayo = [1, 2, 32, 4, 32, 1, 45, 67, 87, 8, 9, 45, 2]
ventas_junio = [1, 2, 32, 1, 45, 78, 8, 90, 0, 98, 7, 46, 15]
ventas_julio = [15, 62, 37, 85, 5, 8, 9, 0, 75, 36, 52, 15, 12]
ventas_agosto = [1, 2, 32, 4, 35, 6, 78, 43, 45, 12, 34, 67, 89]
ventas_septiembre = [9, 87, 7, 6, 56, 7, 0, 34, 23, 1, 2, 51, 35]
ventas_octubre = [16, 62, 75, 58, 97, 6, 9, 0, 98, 78, 2, 3, 4]
ventas_noviembre = [1, 3, 2, 1, 4, 5, 2, 4, 7, 8, 4, 3, 5]
ventas_diciembre = [7, 9, 0, 6, 3, 7, 3, 85, 9, 7, 8, 0, 9]

Asigna tu resultado final a la variable de la siguiente celda:

In [None]:
...
...
...

ventas_dataframe = ...

ventas_dataframe

A continuación la celda de validación ...

In [None]:
import base64
from pprint import pprint

def revisar_dataframe(ventas_dataframe, productos, ventas_enero, ventas_febrero, ventas_marzo, ventas_abril, ventas_mayo,
                      ventas_junio, ventas_julio, ventas_agosto, ventas_septiembre,
                      ventas_octubre, ventas_noviembre, ventas_diciembre):
    
    import pandas as pd
    
    data_1 = b'CmRlZiBjb25jYXRlbmFyX2xpc3Rhc19ob3Jpem9udGFsbWVudGUobGlzdGFfZGVfbGlzdGFzLCBpbmRpY2UpOgoKICAgIG1lc2VzID0gWydlbmVybycsICdmZWJyZXJvJywgJ21hcnpvJywgJ2FicmlsJywgJ21heW8nLCAnanVuaW8nLCAnanVsaW8nLCAnYWdvc3RvJywgJ3NlcHRpZW1icmUnLCAnb2N0dWJyZScsICdub3ZpZW1icmUnLAogICAgICAgICAgICAnZGljaWVtYnJlJ10KICAgIGxpc3RhX2RlX3NlcmllcyA9IFtdCiAgICBmb3IgaSBpbiByYW5nZShsZW4obGlzdGFfZGVfbGlzdGFzKSk6CiAgICAgICAgbGlzdGFfZGVfc2VyaWVzLmFwcGVuZChwZC5TZXJpZXMobGlzdGFfZGVfbGlzdGFzW2ldLCBpbmRleD1pbmRpY2UsIG5hbWU9bWVzZXNbaV0pKQogICAgZGF0YWZyYW1lID0gcGQuY29uY2F0KGxpc3RhX2RlX3NlcmllcywgYXhpcz0xKQogICAgcmV0dXJuIGRhdGFmcmFtZQo='
    
    eval(compile(base64.b64decode(data_1).decode("utf-8"), "", "exec"), globals())
    ventas_dataframe_2 = concatenar_listas_horizontalmente([ventas_enero, ventas_febrero, ventas_marzo, ventas_abril, ventas_mayo,
                                                      ventas_junio, ventas_julio, ventas_agosto, ventas_septiembre,
                                                      ventas_octubre, ventas_noviembre, ventas_diciembre], productos)
    ventas_dataframe_2['total_por_producto'] = ventas_dataframe_2.sum(axis=1)
    total_por_mes = ventas_dataframe_2.sum(axis=0)
    total_por_mes.name = 'total_por_mes'
    ventas_dataframe_2 = ventas_dataframe_2.append(total_por_mes)
    
    if ventas_dataframe.equals(ventas_dataframe_2):
        print(f'Felicidades! El procedimiento fue realizado correctamente.')
        import seaborn as sns
        import matplotlib.pyplot as plt
        
        fig, axs = plt.subplots(2, 1, figsize=(8, 12))
        sin_total_por_mes = ventas_dataframe.drop(index='total_por_mes')
        sin_total_por_mes.sort_values('total_por_producto', ascending=False, inplace=True)
        axs[0].set_title('Ventas totales por producto')
        sns.barplot(sin_total_por_mes['total_por_producto'], sin_total_por_mes.index, ax=axs[0])
        
        axs[1].set_title('Ventas totales por mes')
        sin_total_por_producto = ventas_dataframe.drop(columns='total_por_producto')
        sns.barplot(sin_total_por_producto.columns, sin_total_por_producto.loc['total_por_mes'], orient='v', ax=axs[1])
        for item in axs[1].get_xticklabels():
            item.set_rotation(45)
        
    else:
        from IPython.display import display
        print(f'Hubo un error!\n')
        print('Dataframe esperado:')
        display(ventas_dataframe_2)
        print('\nDataframe recibido:')
        display(ventas_dataframe)
        
revisar_dataframe(ventas_dataframe, productos, ventas_enero, ventas_febrero, ventas_marzo, ventas_abril, ventas_mayo,
                      ventas_junio, ventas_julio, ventas_agosto, ventas_septiembre,
                      ventas_octubre, ventas_noviembre, ventas_diciembre)