### **Proyecto 2: Introducción al análisis de datos**
**Elaborado por:** Olga Elizabeth Fuentes Cadena

*Marzo 2022*

Se realizó el análisis de los datos de importaciones y exportaciones realizadas por la empresa **Synergy Logistics** en los años 2015 a 2020.
Esta empresa realizó intercambios por 4 medios: aire, mar, tren y tierra.

##### **1. Rutas de importación y exportación**
A continuación se presentan las rutas de importaciones y exportaciones con mayores transacciones

In [None]:
from unicodedata import decimal
import pandas as pd
import seaborn as sns
#Dataframe de los datos en el archivo csv
sldb = pd.read_csv("synergy_logistics_database.csv")
rutas = sldb.groupby(["origin","destination","transport_mode"])

In [None]:
imports = sldb[sldb["direction"]== "Imports"]
rutas_imp = imports.groupby(["origin","destination","transport_mode"])
top_rimp = rutas_imp.count()["total_value"].sort_values(ascending=False).head(10)
top_rimp = top_rimp.reset_index()
total_imp = top_rimp["total_value"].sum()
top_rimp["porcentaje"] = ((top_rimp["total_value"]/total_imp).round(decimals=3))*100
print("\n10 Rutas con la mayor cantidad de importaciones:\n")
print(top_rimp[["origin","destination","transport_mode","porcentaje"]])

sns.catplot(data=top_rimp, kind="bar", x="origin", y="porcentaje", palette='Pastel2_r', alpha=.6, height=9)

In [None]:
exports = sldb[sldb["direction"]=="Exports"]
rutas_exp = exports.groupby(["origin","destination","transport_mode"])
top_rexp = rutas_exp.count()["total_value"].sort_values(ascending=False).head(10)
top_rexp = top_rexp.reset_index()
total_exp = top_rexp["total_value"].sum()
top_rexp["porcentaje"] = ((top_rexp["total_value"]/total_exp).round(decimals=3))*100
print("\n10 Rutas con la mayor cantidad de exportaciones:\n")
print(top_rexp[["origin","destination","transport_mode","porcentaje"]])

sns.catplot(data=top_rexp, kind="bar", x="destination", y="porcentaje", palette='Pastel2_r', alpha=.6, height=8)

##### **2. Medio de transporte utilizado**

In [None]:
sns.countplot(data=sldb,x="transport_mode")

In [None]:
transp_anual = sldb.groupby(by=["year","transport_mode"])
cont_transp_anual= transp_anual["total_value"].describe()["count"]
valor_tr_anual= transp_anual["total_value"].agg(pd.Series.sum)
transporte = pd.DataFrame()
transporte["conteo"]=cont_transp_anual
transporte["valor"]=valor_tr_anual

sns.lineplot(x="year", y="conteo", hue="transport_mode",data=transporte)

##### **3. Valor de importaciones y exportaciones**
Lo siguiente, son las rutas que representan el 80% del valor de las importaciones y exportaciones respectivamente.

In [None]:
top_valor_imp = rutas_imp.sum()["total_value"].sort_values(ascending=False).head(10)
top_valor_imp = top_valor_imp.reset_index()
total_valor_imp = top_valor_imp["total_value"].sum()
top_valor_imp["porcentaje"] = ((top_valor_imp["total_value"]/total_valor_imp).round(decimals=3))*100
top_valor_imp ["porc_acum"] = top_valor_imp.cumsum()["porcentaje"]
top_80pc = top_valor_imp [top_valor_imp["porc_acum"]<80]
print ("\nLas rutas que representan el 80% de las importaciones son:\n")
print (top_80pc[["origin","destination","transport_mode","porcentaje"]])

sns.catplot(data=top_valor_imp, kind="bar", x="origin", y="porcentaje", palette='Pastel2_r', alpha=.6, height=6)

In [None]:
top_valor_exp = rutas_exp.sum()["total_value"].sort_values(ascending=False).head(10)
top_valor_exp = top_valor_exp.reset_index()
total_valor_exp = top_valor_exp["total_value"].sum()
top_valor_exp["porcentaje"] = ((top_valor_exp["total_value"]/total_valor_exp).round(decimals=3))*100
top_valor_exp ["porc_acum"] = top_valor_exp.cumsum()["porcentaje"]
top_80pc = top_valor_exp [top_valor_exp["porc_acum"]<80]
print ("\nLas rutas que representan el 80% de las exportaciones son:\n")
print (top_80pc[["origin","destination","transport_mode","porcentaje"]])

sns.catplot(data=top_valor_exp, kind="bar", x="destination", y="porcentaje", palette='Pastel2_r', alpha=.6, height=8)