# Análisis Exploratorio de datos del Café en Colombia

Instalando Librerías

In [1]:
#!pip install openpyxl
#!pip install pandas
#!pip install plotly
#!pip install --upgrade nbformat

## Total Exportaciones

In [2]:
#importando librerías
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

px.defaults.template = "seaborn"
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.options.display.float_format = '{:,.2f}'.format

### Total exportaciones en Kg 2016 - 2024

In [3]:
s1 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=0)
s1.head()

Unnamed: 0,MES,Total Exportaciones
0,1958-01-01,337.0
1,1958-02-01,450.0
2,1958-03-01,383.0
3,1958-04-01,334.0
4,1958-05-01,331.0


In [4]:
s1.columns

Index(['MES', 'Total Exportaciones'], dtype='object')

In [5]:
s1 = s1.rename(columns={'MES': 'fecha', 'Total Exportaciones': 'total_export'})
s1['total_kg'] = s1['total_export']*60
s1_2016 = s1.loc[s1['fecha']>'2016-12-31']
s1_2016.head()

Unnamed: 0,fecha,total_export,total_kg
708,2017-01-01,1137.74,68264.4
709,2017-02-01,1182.26,70935.36
710,2017-03-01,1160.0,69600.0
711,2017-04-01,898.0,53880.0
712,2017-05-01,833.87,50032.38


In [6]:
s1_2016['año'] = pd.to_datetime(s1_2016['fecha']).dt.year

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  s1_2016['año'] = pd.to_datetime(s1_2016['fecha']).dt.year


In [7]:
years = s1_2016['año'].unique()
print(years)

[2017 2018 2019 2020 2021 2022 2023 2024]


In [8]:

fig = px.line(s1_2016, x="fecha", y="total_kg")
fig.update_layout(xaxis_title="Fecha", yaxis_title="Total de Kgs", title="Exportaciones de CAFE en Colombia", width=800, height=400)
fig.show()

In [9]:
s1_2016['año'] = pd.to_datetime(s1_2016['fecha']).dt.year
s1_gp_year = s1_2016.groupby(['año'])['total_kg'].sum().reset_index()
s1_gp_year.head()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,año,total_kg
0,2017,778939.14
1,2018,765054.6
2,2019,820057.92
3,2020,751618.68
4,2021,746310.24


In [10]:
fig = px.bar(s1_gp_year, x="año", y="total_kg", color='año')
fig.update_layout(xaxis_title="Año", yaxis_title="Total de Kgs", title="Exportaciones de CAFE en Colombia por Año hasta Julio 2024", xaxis_dtick=1, width=800, height=400)
fig.show()

In [11]:
s1_2016_08 = s1_2016
s1_2016_08['año'] = s1_2016_08['fecha'].dt.year
s1_2016_08['mes'] = s1_2016_08['fecha'].dt.strftime('%m')
s1_2016_08.head()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,fecha,total_export,total_kg,año,mes
708,2017-01-01,1137.74,68264.4,2017,1
709,2017-02-01,1182.26,70935.36,2017,2
710,2017-03-01,1160.0,69600.0,2017,3
711,2017-04-01,898.0,53880.0,2017,4
712,2017-05-01,833.87,50032.38,2017,5


In [12]:
fig = px.line(s1_2016_08, 
              x='mes', 
              y='total_kg', 
              color='año',  # Diferente color por año
              labels={'mes_dia': 'Mes', 'total_kg': 'Total KG'}, 
              title='Total KG por Año',
              width=800, height=400)

# Mostrar el gráfico interactivo
fig.show()

### Total Exportaciones en Valor Nominal

In [13]:
s2 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=1)
s2.head()

Unnamed: 0,Mes,Valor Nominal*
0,1958-01-01,28.9
1,1958-02-01,38.6
2,1958-03-01,32.7
3,1958-04-01,24.7
4,1958-05-01,24.1


In [14]:
s2.columns

Index(['Mes', 'Valor Nominal*'], dtype='object')

In [15]:
s2 = s2.rename(columns={'Mes': 'fecha', 'Valor Nominal*': 'nominal'})
s2_2016 = s2.loc[s2['fecha']>'2016-12-31']
s2_2016['fecha'] = pd.to_datetime(s2_2016['fecha']).dt.date
s2_2016.style.format({'nominal':'${:.2f}'})
s2_2016.head()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,fecha,nominal
708,2017-01-01,242.36
709,2017-02-01,253.89
710,2017-03-01,256.13
711,2017-04-01,191.54
712,2017-05-01,197.11


In [16]:
fig = px.line(s2_2016, x="fecha", y="nominal")
fig.update_layout(xaxis_title="Fecha", yaxis_title="Valor en Miles de US", title="Valor Nominal de Exportaciones de CAFE en Colombia", width=800, height=400)
fig.show()

### Exportaciones Según tipo de Café

In [17]:
s3 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=2)
s3.head()

Unnamed: 0,Año,Verde,Verde descafeinado,Tostado en grano,Tostado y molido,Extracto y soluble,Producto de Colombia (verde + industrializado),Total
0,2000,8568.0,6.0,1.0,4.0,628.0,,9207.0
1,2001,9271.0,71.0,1.0,5.0,627.0,,9975.0
2,2002,9522.0,137.0,0.0,5.0,610.0,,10274.0
3,2003,9589.0,96.0,2.0,10.0,593.0,,10290.0
4,2004,9476.0,124.0,3.0,13.0,646.0,,10262.0


In [18]:
s3_2016 = s3.loc[s3['Año']>=2016]
s3_2016

Unnamed: 0,Año,Verde,Verde descafeinado,Tostado en grano,Tostado y molido,Extracto y soluble,Producto de Colombia (verde + industrializado),Total
16,2016,11034.45,9.29,40.02,51.91,707.77,1001.4,12844.83
17,2017,11384.8,14.79,32.79,74.12,755.65,720.97,12983.11
18,2018,11316.31,16.84,37.7,59.36,778.87,542.26,12751.34
19,2019,11970.29,16.27,40.95,81.46,809.0,749.66,13667.63
20,2020,10683.85,13.22,44.11,89.64,879.9,816.71,12527.44
21,2021,10664.38,32.9,61.67,96.16,787.44,796.23,12438.79
22,2022,9495.41,46.16,65.88,95.03,799.09,906.67,11408.24
23,2023,9012.32,54.93,49.42,94.56,653.67,714.41,10579.3


In [19]:
# Convertir el DataFrame a formato largo
s3_long = s3_2016.melt(id_vars='Año', value_vars=['Verde', 'Verde descafeinado', 'Tostado en grano', 
                                                    'Tostado y molido', 'Extracto y soluble', 
                                                    'Producto de Colombia (verde + industrializado)'],
                        var_name='Categoría', value_name='Valor')
s3_long

Unnamed: 0,Año,Categoría,Valor
0,2016,Verde,11034.45
1,2017,Verde,11384.8
2,2018,Verde,11316.31
3,2019,Verde,11970.29
4,2020,Verde,10683.85
5,2021,Verde,10664.38
6,2022,Verde,9495.41
7,2023,Verde,9012.32
8,2016,Verde descafeinado,9.29
9,2017,Verde descafeinado,14.79


In [20]:
fig = px.scatter(s3_long, 
                 x='Valor', 
                 y='Año', 
                 size='Valor', 
                 color='Categoría', 
                 hover_name='Categoría', 
                 title='Exportaciones por Tipo de Café Total en Kgs por Año (2016 - 2023)',
                 labels={'Valor': 'Valor por Categoría', 'Año': 'Año'},
                 log_x=True, size_max=60,
                 width=800, height=400)

# Mostrar el gráfico
fig.show()

In [21]:
s3_2016_gp = s3_long.groupby('Categoría')['Valor'].sum().reset_index()
s3_2016_gp

Unnamed: 0,Categoría,Valor
0,Extracto y soluble,6171.39
1,Producto de Colombia (verde + industrializado),6248.3
2,Tostado en grano,372.55
3,Tostado y molido,642.24
4,Verde,85561.81
5,Verde descafeinado,204.39


In [22]:
fig = px.pie(s3_2016_gp, values='Valor', names='Categoría', 
             title='Exportaciones por Tipo de CAFE Total en Kgs por Año (2016 - 2023)', 
             color_discrete_sequence=px.colors.sequential.GnBu_r,
             width=800, height=400)
fig.show()

### Exportaciones por Embarque

In [23]:
s4 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=3)
s4.head()

Unnamed: 0,Puerto de Embarque,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,Aerp. El Dorado,309.0,770.0,1923.0,1442.0,2418.0,2111.0,3355.0,3804.0,4910.0,2693.0,5297.0,3789.0,2514.0,2762.0,3153.0,4544.0,11500.0,7849.0,7129.0,6790.0,2817.0,1551.0,177.0,7379.0
1,Aerp. José M.Cordoba,364.0,2762.0,477.0,1193.0,117.0,,161.0,265.0,1324.0,3548.0,8869.0,25560.0,9931.0,7902.0,6037.0,4757.0,3995.0,3183.0,3095.0,4567.0,3400.0,,,616.0
2,Aerp. Alfonso Bonilla,55.0,28.0,6.0,0.0,197.0,0.0,261.0,22.0,665.0,11.0,53.0,31.0,31.0,73.0,40.0,15.0,205.0,56.0,43.0,95.0,24.0,2.0,,66.0
3,Aerp. Matecaña,,,,,,,,,,,,,7.0,,,,,36.0,103.0,94.0,43.0,,,
4,Insp. Barranquilla,42017.0,63635.0,202755.0,107631.0,47545.0,28659.0,48602.0,13503.0,3333.0,4693.0,,,,,,,,,86.0,725.0,2786.0,2509.0,3733.0,3880.0


In [24]:
# Eliminando filas con valores NaN
s4.dropna(inplace=True)
print(s4.shape)
s4.reset_index(inplace=True, drop=True)
s4.tail()

(9, 25)


Unnamed: 0,Puerto de Embarque,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
4,Ipiales,22224.0,18473.0,10823.0,3221.0,42178.0,7849.0,29074.0,28145.0,26385.0,33444.0,21552.0,15966.0,20464.0,16191.0,15931.0,27711.0,14297.0,22953.0,25508.0,24004.0,27653.0,16772.0,20366.0,29568.0
5,Total Aeropuertos,728.0,3560.0,2406.0,2635.0,2732.0,2111.0,3777.0,4091.0,6899.0,6252.0,14219.0,29380.0,12483.0,10737.0,9230.0,9316.0,15700.0,11124.0,10370.0,11572.0,6284.0,1553.0,182.0,8077.0
6,Total Puertos Marítimos,9182032.0,9951496.0,10273971.0,10270789.0,10204931.0,10861101.0,10898043.0,11250159.0,11038120.0,7851197.0,7770725.0,7686277.0,7131442.0,9639968.0,10923780.0,12672203.0,12814390.0,12948331.0,12714210.0,13628943.0,12489261.0,12420107.0,11387693.0,10541542.0
7,Total Frontera terrestre y ZF,29573.0,29618.0,19351.0,16002.0,55124.0,8144.0,43409.0,46418.0,40582.0,36433.0,36765.0,17885.0,25073.0,21270.0,23814.0,32148.0,14743.0,23659.0,26760.0,27117.0,31891.0,17129.0,20366.0,29683.0
8,Total general,9212333.0,9984674.0,10295728.0,10289426.0,10262787.0,10871356.0,10945229.0,11300668.0,11085601.0,7893882.0,7821709.0,7733542.0,7168998.0,9671975.0,10956824.0,12713667.0,12844833.0,12983114.0,12751340.0,13667632.0,12527436.0,12438789.0,11408241.0,10579302.0


In [25]:
s4_melted = s4.melt(id_vars=['Puerto de Embarque'], var_name='Año', value_name='Sacos de 60kg')
s4_melted.head()

Unnamed: 0,Puerto de Embarque,Año,Sacos de 60kg
0,Aerp. El Dorado,2000,309.0
1,Insp. Buenaventura,2000,6253228.0
2,Insp. Cartagena,2000,2133706.0
3,Insp. Santa Marta,2000,753081.0
4,Ipiales,2000,22224.0


In [26]:
s4_melted['total_kg'] = s4_melted['Sacos de 60kg'] * 60
s4_melted.head()

Unnamed: 0,Puerto de Embarque,Año,Sacos de 60kg,total_kg
0,Aerp. El Dorado,2000,309.0,18540.0
1,Insp. Buenaventura,2000,6253228.0,375193680.0
2,Insp. Cartagena,2000,2133706.0,128022360.0
3,Insp. Santa Marta,2000,753081.0,45184860.0
4,Ipiales,2000,22224.0,1333440.0


In [27]:
# Filtrar los puertos sin incluir 'Total'
s4_puertos = s4_melted[~s4_melted['Puerto de Embarque'].str.contains('Total')]

# Filtrar filas que contienen 'Total general'
s4_total = s4_melted[s4_melted['Puerto de Embarque'].str.contains('Total general')]

# Filtrar filas que contienen 'Total' pero no 'Total general'
s4_total_embarque = s4_melted[s4_melted['Puerto de Embarque'].str.contains('Total') & 
                              ~s4_melted['Puerto de Embarque'].str.contains('Total general')]

In [28]:
s4_puertos.head()

Unnamed: 0,Puerto de Embarque,Año,Sacos de 60kg,total_kg
0,Aerp. El Dorado,2000,309.0,18540.0
1,Insp. Buenaventura,2000,6253228.0,375193680.0
2,Insp. Cartagena,2000,2133706.0,128022360.0
3,Insp. Santa Marta,2000,753081.0,45184860.0
4,Ipiales,2000,22224.0,1333440.0


In [29]:
fig = px.bar(s4_puertos,
              x='Año',
              y='total_kg',
              color='Puerto de Embarque',
              labels={'total_kg': 'Total Kg'},
              width=800, height=400)

# Mostrar el gráfico interactivo
fig.show()

In [30]:
fig = px.line(s4_total,     
              x='Año', 
              y='total_kg', 
              labels={'total_kg': 'Total KG'}, 
              title='Tendencia Anual del Peso Total (KG) Transportado',
              width=800, height=400)

# Mostrar el gráfico interactivo
fig.show()


In [31]:
s5 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=4)
s5.head()

Unnamed: 0,Año,Mes,Puerto de embarque,Tipo de café,Sacos de 70 kg. equivalente real Exportados,Sacos de 60 Kg. Exportados,Valor provisional de la Exportación (USD) *
0,2017,1,Aerp. El Dorado,Café Verde,74,84,60776.73
1,2017,1,Aerp. El Dorado,Extractos,27,32,25210.08
2,2017,1,Aerp. El Dorado,Soluble,21,26,12050.33
3,2017,1,Aerp. El Dorado,Tostados,257,300,173076.67
4,2017,1,Aerp. José M.Cordoba,Café Verde,29,33,15400.0


In [32]:
# Combina 'Año' y 'Mes' para formar una columna 'Fecha'
s5['Fecha'] = s5['Año'].astype(str) + '-' + s5['Mes'].astype(str)

# Convierte 'Fecha' en un objeto datetime
s5['Fecha'] = pd.to_datetime(s5['Fecha'], format='%Y-%m')



s5.rename(columns={'Sacos de 70 kg. equivalente real Exportados': 'Sacos de 70kg', 
                 'Sacos de 60 Kg. Exportados': 'Sacos de 60kg', 
                 'Valor provisional de la Exportación (USD) *	': 'Valor en USD'}, inplace=True)

# Verifica los resultados
s5.head()

Unnamed: 0,Año,Mes,Puerto de embarque,Tipo de café,Sacos de 70kg,Sacos de 60kg,Valor provisional de la Exportación (USD) *,Fecha
0,2017,1,Aerp. El Dorado,Café Verde,74,84,60776.73,2017-01-01
1,2017,1,Aerp. El Dorado,Extractos,27,32,25210.08,2017-01-01
2,2017,1,Aerp. El Dorado,Soluble,21,26,12050.33,2017-01-01
3,2017,1,Aerp. El Dorado,Tostados,257,300,173076.67,2017-01-01
4,2017,1,Aerp. José M.Cordoba,Café Verde,29,33,15400.0,2017-01-01


In [33]:
s5_70kg = s5[['Fecha','Sacos de 70kg']].groupby('Fecha').sum().reset_index()
fig = px.line(data_frame=s5_70kg, 
             x='Fecha', 
             y='Sacos de 70kg', 
             labels={'value': 'Sacos Exportados'}, 
             title='Exportaciones de Sacos de Café (70 kg) por Mes',
             width=800, height=400)

fig.show()

In [34]:
s5_60kg = s5[['Fecha','Sacos de 60kg']].groupby('Fecha').sum().reset_index()
fig = px.line(data_frame=s5_60kg, 
             x='Fecha', 
             y='Sacos de 60kg', 
             labels={'value': 'Sacos Exportados'}, 
             title='Exportaciones de Sacos de Café (60 kg) por Mes',
             width=800, height=400)

fig.show()

### Exportaciones por País

In [35]:
s6 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=5)
s6.head()

Unnamed: 0,PAISES,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,Estados Unidos,2955.71,3061.13,3441.28,3622.94,3560.24,3974.37,3792.61,3863.93,4163.0,3177.0,3073.15,3279.75,2916.81,4228.63,4595.45,5298.27,5293.55,5702.6,5722.49,5895.03,5105.44,5207.21,5006.79,4370.75
1,Canadá,431.89,531.46,532.84,513.16,592.52,645.3,589.76,554.89,576.0,484.0,570.27,530.63,518.51,605.47,733.6,791.68,837.13,867.75,928.59,993.51,875.58,950.58,821.07,679.58
2,Argentina,27.55,26.75,6.54,11.1,10.24,6.92,7.29,8.21,8.0,7.0,5.02,6.97,7.2,4.91,8.37,8.04,8.98,19.28,12.01,14.24,14.49,21.75,22.52,23.7
3,Alemania,1727.1,1860.31,1767.09,1642.44,1383.1,1420.39,1456.7,1549.54,1136.0,456.64,335.15,424.66,469.07,736.63,972.17,1109.11,1246.34,1025.23,1023.09,1196.22,1082.14,968.5,778.55,755.55
4,Bélgica,485.42,740.63,486.46,531.06,542.69,664.12,614.64,775.68,710.0,518.93,570.53,568.64,531.6,669.49,837.83,918.63,719.47,616.67,599.21,660.16,854.4,889.26,768.83,691.2


In [36]:
s6.columns

Index(['PAISES',     2000,     2001,     2002,     2003,     2004,     2005,
           2006,     2007,     2008,     2009,     2010,     2011,     2012,
           2013,     2014,     2015,     2016,     2017,     2018,     2019,
           2020,     2021,     2022,     2023],
      dtype='object')

In [37]:
# Filtrar las filas donde 'PAISES' no contiene 'Total'
s6_filtered = s6[~s6['PAISES'].str.contains('TOTAL')].reset_index(drop=True)

# Verifica las dimensiones del DataFrame filtrado
s6_filtered.shape

(23, 25)

In [38]:
# Transforma el DataFrame para tener 'PAISES' como variable y los años como observaciones
df_melted = s6_filtered.melt(id_vars='PAISES', var_name='Año', value_name='Valor')

# Gráfico de líneas
fig = px.line(df_melted, x='Año', y='Valor', color='PAISES',
              labels={'Valor': 'Valor', 'Año': 'Año'},
              title='Exportaciones de Café por País de 2000 a 2023')
fig.show()


In [39]:
fig = px.area(df_melted, x='Año', y='Valor', color='PAISES',
              labels={'Valor': 'Valor', 'Año': 'Año'},
              title='Evolución de Valores por País (Área Apilada)')
fig.show()

In [40]:
df_melted.head()

Unnamed: 0,PAISES,Año,Valor
0,Estados Unidos,2000,2955.71
1,Canadá,2000,431.89
2,Argentina,2000,27.55
3,Alemania,2000,1727.1
4,Bélgica,2000,485.42


In [41]:
# Crear el gráfico de calor
fig = go.Figure(data=go.Heatmap(
                   z=s6_filtered.set_index('PAISES').values,
                   x=s6_filtered.columns[1:],  # Años
                   y=s6_filtered['PAISES'],     # Países
                   colorscale='Viridis'))

# Actualizar el layout del gráfico para que sea más cuadrado
fig.update_layout(
    title='Mapa de Calor de Valores por País y Año',
    xaxis_title='Año',
    yaxis_title='Países',
    width=600,  # Ajusta el ancho
    height=600,  # Ajusta la altura
    margin=dict(l=50, r=50, t=50, b=50)  # Márgenes
)

# Mostrar el gráfico
fig.show()

In [42]:
fig = px.bar(df_melted, x='Año', y='Valor', color='PAISES', 
             labels={'Valor': 'Valor', 'Año': 'Año'},
             title='Distribución de Valores por País a lo largo de los Años', 
             barmode='stack')
fig.show()

In [43]:
s7 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=6)
s7.head()

Unnamed: 0,Año,Mes,País de destino,Tipo de café,Sacos de 70 kg. equivalente real Exportados,Sacos de 60 Kg. Exportados,Valor provisional de la Exportación (USD) *
0,2017,1,Alemania,Café Verde,64522,75275,15035992.52
1,2017,1,Alemania,Extractos,1,1,2475.0
2,2017,1,Alemania,Soluble,9132,10650,2499024.0
3,2017,1,Alemania,Tostados,3,3,1252.6
4,2017,1,Argentina,Café Verde,1415,1650,396701.04


In [45]:
s7_grouped = s7.groupby(['Año','País de destino', 'Tipo de café'])['Valor provisional de la Exportación (USD) *'].sum().reset_index()
s7_grouped = s7_grouped.sort_values(by=['Valor provisional de la Exportación (USD) *', 'Tipo de café'], ascending=False).reset_index(drop=True)
s7_grouped = s7_grouped.head(30)
s7_grouped.head()

Unnamed: 0,País de destino,Tipo de café,Valor provisional de la Exportación (USD) *
0,EE.UU.,Café Verde,8092615670.32
1,Japón,Café Verde,1470263553.73
2,Alemania,Café Verde,1469595999.9
3,Canadá,Café Verde,1466042039.6
4,Bélgica,Café Verde,1341257017.1


In [45]:
fig_grouped_bar = px.bar(s7_grouped, 
             x='País de destino', 
             y='Valor provisional de la Exportación (USD) *', 
             color='Tipo de café', 
             barmode='group',
             title='Comparación de Valor de Exportación por Tipo de Café y País (2017 - 2024)',
             labels={
                 'Valor provisional de la Exportación (USD) *': 'Valor de Exportación (USD)', 
                 'País de destino': 'País de Destino',
                 'Tipo de café': 'Tipo de Café'
             })

# Mostrar el gráfico
fig_grouped_bar.show()

In [46]:
s8 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=7)
s8.head()

Unnamed: 0,Año,Federación Nacional de Cafeteros,Particulares,Total
0,2000,3325.7,5886.63,9212.33
1,2001,3619.8,6364.87,9984.67
2,2002,2777.05,7518.68,10295.73
3,2003,2717.98,7571.45,10289.43
4,2004,2754.19,7508.6,10262.79


In [47]:
s8_melted = s8.melt(id_vars=['Año'], value_vars=['Federación Nacional de Cafeteros', 'Particulares'],
                    var_name='Exportador', value_name='Sacos de 60kg')
s8_melted.sort_values(by=['Año', 'Exportador'], inplace=True, ascending=True)
s8_melted.reset_index(drop=True, inplace=True)
s8_melted['Total en kilogramos'] = s8_melted['Sacos de 60kg'] * 60
s8_melted['Sacos de 70kg'] = s8_melted['Total en kilogramos'] / 70

s8_melted.head()

Unnamed: 0,Año,Exportador,Sacos de 60kg,Total en kilogramos,Sacos de 70kg
0,2000,Federación Nacional de Cafeteros,3325.7,199542.3,2850.6
1,2000,Particulares,5886.63,353197.68,5045.68
2,2001,Federación Nacional de Cafeteros,3619.8,217188.18,3102.69
3,2001,Particulares,6364.87,381892.26,5455.6
4,2002,Federación Nacional de Cafeteros,2777.05,166622.82,2380.33


In [50]:
fig = px.line(
    s8_melted, 
    x='Año', 
    y='Total en kilogramos', 
    color='Exportador', 
    title='Exportaciones de CAFE en Colombia', 
    width=800,
    height=400, 
)
fig.show()

In [51]:
s9 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=8)
s9.head()

Unnamed: 0,Año,Mes,Federación Nacional de Cafeteros,Particulares,Total
0,2000,enero,25.8,58.6,84.4
1,2000,febrero,34.5,67.7,102.2
2,2000,marzo,22.5,37.8,60.3
3,2000,abril,35.0,73.3,108.3
4,2000,mayo,31.3,54.3,85.6


In [52]:
s9.columns

Index(['Año', 'Mes', 'Federación Nacional de Cafeteros', 'Particulares',
       'Total'],
      dtype='object')

In [64]:
s9['Federación Nacional de Cafeteros'] = pd.to_numeric(s9['Federación Nacional de Cafeteros'], errors='coerce')
s9['Particulares'] = pd.to_numeric(s9['Particulares'], errors='coerce')
s9_melted = s9.melt(id_vars=['Año'], 
                    value_vars=['Federación Nacional de Cafeteros', 'Particulares'], 
                    var_name='Exportador', 
                    value_name='Valor en USD')
s9_melted.sort_values(by=['Año', 'Exportador'], inplace=True, ascending=True)
s9_melted.reset_index(drop=True, inplace=True)
# Agrupar por 'Año' y sumar los valores de 'Valor en USD' para cada exportador
s9_melted_grouped = s9_melted.groupby(by=['Año', 'Exportador'])['Valor en USD'].sum().reset_index()

# Ver el resultado
s9_melted_grouped.head()

Unnamed: 0,Año,Exportador,Valor en USD
0,2000,Federación Nacional de Cafeteros,409.2
1,2000,Particulares,769.0
2,2001,Federación Nacional de Cafeteros,297.6
3,2001,Particulares,567.7
4,2002,Federación Nacional de Cafeteros,243.0


In [52]:
s10 = pd.read_excel("exportaciones_coffee.xlsx", sheet_name=9)
s10.head()

Unnamed: 0,Año,Mes,País destino,Nombre exportador,Sacos de 70 kg. equivalente real Exportados,Sacos de 60 Kg. Exportados,Valor Factura (USD)*
0,2017,1,Alemania,A LAUMAYER Y COMPAÑIA EXPORTADORES,4691,5471,1133799.64
1,2017,1,Alemania,ALTAMIRA SUPREMO S.A.S.,825,962,150000.0
2,2017,1,Alemania,BANCA EXPORTADORA S.A BANEXPORT,275,321,80000.0
3,2017,1,Alemania,C. I. KYOTO LOHAS BEANS S.A.S,271,316,96744.25
4,2017,1,Alemania,CAFE COLSUAVES S.A.S,300,350,64500.0


In [53]:
s10['total_kg'] = s10['Sacos de 70 kg. equivalente real Exportados'] * 70
s10['fecha'] = pd.to_datetime(s10['Año'].astype(str) + '-' + s10['Mes'].astype(str) + '-01')
s10.rename(columns={'Sacos de 70 kg. equivalente real Exportados': 'sacos_70',
                   'Sacos de 60 Kg. Exportados': 'sacos_60','Valor Factura (USD)*': 'valor_usd',
                   'Año': 'año',
                   }, inplace=True)
s10.head()

Unnamed: 0,Año,Mes,País destino,Nombre exportador,Sacos de 70 kg. equivalente real Exportados,Sacos de 60 Kg. Exportados,Valor Factura (USD)*,total_kg,fecha
0,2017,1,Alemania,A LAUMAYER Y COMPAÑIA EXPORTADORES,4691,5471,1133799.64,328370,2017-01-01
1,2017,1,Alemania,ALTAMIRA SUPREMO S.A.S.,825,962,150000.0,57750,2017-01-01
2,2017,1,Alemania,BANCA EXPORTADORA S.A BANEXPORT,275,321,80000.0,19250,2017-01-01
3,2017,1,Alemania,C. I. KYOTO LOHAS BEANS S.A.S,271,316,96744.25,18970,2017-01-01
4,2017,1,Alemania,CAFE COLSUAVES S.A.S,300,350,64500.0,21000,2017-01-01


In [54]:
s10.columns

Index(['Año', 'Mes', 'País destino', 'Nombre exportador',
       'Sacos de 70 kg. equivalente real Exportados',
       'Sacos de 60 Kg. Exportados', 'Valor Factura (USD)*', 'total_kg',
       'fecha'],
      dtype='object')

In [55]:
s10_gp = s10.groupby(['fecha'])[['Sacos de 70 kg. equivalente real Exportados', 
                                 'Sacos de 60 Kg. Exportados', 
                                 'Valor Factura (USD)*', 
                                 'total_kg']].sum().reset_index()

In [60]:
s10_gp.rename(columns={'Sacos de 70 kg. equivalente real Exportados': 'sacos_70',
                       'Sacos de 60 Kg. Exportados': 'sacos_60','Valor Factura (USD)*': 'valor_usd'}, inplace=True)

s10_gp.head()

Unnamed: 0,fecha,sacos_70,sacos_60,valor_usd,total_kg
0,2017-01-01,975230,1137740,239093105.88,68266100
1,2017-02-01,1013373,1182256,249716682.82,70936110
2,2017-03-01,994555,1160285,252801104.39,69618850
3,2017-04-01,770261,898629,187453361.08,53918270
4,2017-05-01,714750,833873,196686161.58,50032500


In [58]:
# Agrupar datos por fecha, país y exportador, sumando los kilogramos exportados
exportaciones_agrupadas = s10.groupby(['fecha', 'País destino', 'Nombre exportador']).agg(
    {'total_kg': 'sum'}).reset_index()

# Obtener los valores únicos de países
paises = exportaciones_agrupadas['País destino'].unique()

for pais in paises:
    # Filtrar los datos para cada país
    df_filtrado = exportaciones_agrupadas[exportaciones_agrupadas['País destino'] == pais]
    df_filtrado.head()

In [59]:
exportaciones_agrupadas.head()

Unnamed: 0,fecha,País destino,Nombre exportador,total_kg
0,2017-01-01,Alemania,A LAUMAYER Y COMPAÑIA EXPORTADORES,328370
1,2017-01-01,Alemania,ALTAMIRA SUPREMO S.A.S.,57750
2,2017-01-01,Alemania,BANCA EXPORTADORA S.A BANEXPORT,19250
3,2017-01-01,Alemania,C. I. KYOTO LOHAS BEANS S.A.S,18970
4,2017-01-01,Alemania,CAFE COLSUAVES S.A.S,21000
