---
# DataWrangling Comtrade

La siguiente base de datos fue extraida desde UN Comtrade (https://comtrade.un.org/), que correspone a una base de datos con información histórica de comercio entre paises, mantenida por las Naciones Unidas.

Los datos informados correponden a transacciones de Chile y de Perú.

#### 1. Importar librerías

In [1]:
import numpy as np
import pandas as pd

#### 2. Realice la lectura de datos

In [2]:
df = pd.read_csv('Comtrade-X-CL-PE.csv')

#### 3. Realice operaciones básicas de exploración del dataset

In [3]:
df.head(10)

Unnamed: 0,Classification,Year,Period,Period Desc.,Aggregate Level,Is Leaf Code,Trade Flow Code,Trade Flow,Reporter Code,Reporter,...,Qty,Alt Qty Unit Code,Alt Qty Unit,Alt Qty,Netweight (kg),Gross weight (kg),Trade Value (US$),CIF Trade Value (US$),FOB Trade Value (US$),Flag
0,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,8488213,,8488213.0,0
1,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,967501641,,967501600.0,0
2,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,5907535850,,5907536000.0,0
3,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,152811730,,152811700.0,0
4,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,46352786,,46352790.0,0
5,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,53959125,,53959130.0,0
6,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,117075322,,117075300.0,0
7,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,6341177272,,6341177000.0,0
8,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,8319549,,8319550.0,0
9,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,100896931,,100896900.0,0


In [5]:
df.sample(n=7)

Unnamed: 0,Classification,Year,Period,Period Desc.,Aggregate Level,Is Leaf Code,Trade Flow Code,Trade Flow,Reporter Code,Reporter,...,Qty,Alt Qty Unit Code,Alt Qty Unit,Alt Qty,Netweight (kg),Gross weight (kg),Trade Value (US$),CIF Trade Value (US$),FOB Trade Value (US$),Flag
31607,H5,2019,2019,2019,2,0,0,X,604,Peru,...,0,-1,,0,0.0,0.0,2419134,,2419134.88,0
15234,H5,2018,2018,2018,2,0,0,X,604,Peru,...,0,-1,,0,0.0,0.0,26350,,26350.5,0
26975,H5,2019,2019,2019,2,0,0,X,604,Peru,...,0,-1,,0,0.0,0.0,5223,,5223.1,0
27166,H5,2019,2019,2019,2,0,0,X,604,Peru,...,0,-1,,0,0.0,0.0,352514,,352514.17,0
19424,H5,2018,2018,2018,2,0,0,X,604,Peru,...,0,-1,,0,0.0,0.0,149801,,149801.6,0
2469,H5,2018,2018,2018,2,0,0,X,152,Chile,...,0,-1,,0,,,7058,,7058.97,0
8350,H5,2018,2018,2018,2,0,0,X,604,Peru,...,0,-1,,0,0.0,0.0,1042428,,1042428.25,0


In [10]:
df.columns

Index(['Classification', 'Year', 'Period', 'Period Desc.', 'Aggregate Level',
       'Is Leaf Code', 'Trade Flow Code', 'Trade Flow', 'Reporter Code',
       'Reporter', 'Reporter ISO', 'Partner Code', 'Partner', 'Partner ISO',
       '2nd Partner Code', '2nd Partner', '2nd Partner ISO',
       'Customs Proc. Code', 'Customs', 'Mode of Transport Code',
       'Mode of Transport', 'Commodity Code', 'Commodity', 'Qty Unit Code',
       'Qty Unit', 'Qty', 'Alt Qty Unit Code', 'Alt Qty Unit', 'Alt Qty',
       'Netweight (kg)', 'Gross weight (kg)', 'Trade Value (US$)',
       'CIF Trade Value (US$)', 'FOB Trade Value (US$)', 'Flag'],
      dtype='object')

#### 4. ¿Cuántas filas y columnas tiene el dataset?

In [None]:
#df.shape
print(f"El dataset contiene {len(df)} filas y {len(df.columns)} columnas")

El dataset contiene 32538 filas y 35 columnas


(32538, 35)

#### 5. ¿Cuántos reporters distintos hay en los datos? (campo Reporter)

In [29]:
#df['Reporter'].unique()
print(f"Hay {df['Reporter'].nunique()} reporters distintos")


Hay 2 reporters distintos


array(['Chile', 'Peru'], dtype=object)

#### 5. ¿Qué años de data considera el reporte?

In [32]:
df['Year'].unique()

array([2018, 2019])

array([2018, 2019], dtype=int64)

#### 5. Haga un análisis de valores nulos

In [36]:
df.isnull().sum()[df.isnull().sum() > 0]

Qty Unit                 32538
Alt Qty Unit             32538
Netweight (kg)            4185
Gross weight (kg)         4070
CIF Trade Value (US$)    32538
dtype: int64

In [9]:
df.isnull().sum()

Classification                0
Year                          0
Period                        0
Period Desc.                  0
Aggregate Level               0
Is Leaf Code                  0
Trade Flow Code               0
Trade Flow                    0
Reporter Code                 0
Reporter                      0
Reporter ISO                  0
Partner Code                  0
Partner                       0
Partner ISO                   0
2nd Partner Code              0
2nd Partner                   0
2nd Partner ISO               0
Customs Proc. Code            0
Customs                       0
Mode of Transport Code        0
Mode of Transport             0
Commodity Code                0
Commodity                     0
Qty Unit Code                 0
Qty Unit                  32538
Qty                           0
Alt Qty Unit Code             0
Alt Qty Unit              32538
Alt Qty                       0
Netweight (kg)             4185
Gross weight (kg)          4070
Trade Va

#### 6. En base al análisis anterior, ¿eliminaría columnas? ¿cuáles? Si es así, proceda...

In [None]:
# Eliminaria las siguientes 5 columnas: Qty Unit, Alt Qty Unit, Netweight (kg), Gross weight (kg) y CIF Trade Value (US$)
# porque son las que contienen valores nulos

print("Cantidad de columnas antes de eliminar: ",len(df.columns))
df_prueba = df.drop(columns=['Qty Unit','Alt Qty Unit', 'Netweight (kg)','Gross weight (kg)','CIF Trade Value (US$)'])
print("Cantidad de columnas despues de eliminar: ",len(df_prueba.columns))

Cantidad de columnas antes de eliminar:  35
Cantidad de columnas despues de eliminar:  30


#### 7. ¿Que densidad de datos tienen las columnas Netwweight y Trade Value?
Nos referimos al porcentaje de datos no nulo que tiene cada columna respecto al total

In [None]:
valores = ['Netweight (kg)','Trade Value (US$)']
total_datos = len(df)

for i in valores:
    no_nulos = df[i].notnull().sum()
    porcentaje = no_nulos/total_datos*100
    print(f"Densidad de datos en '{i}': {porcentaje:.2f}%")


Densidad de datos en 'Netweight (kg)': 87.14%
Densidad de datos en 'Trade Value (US$)': 100.00%


Netweight (kg)        87.138115
Trade Value (US$)    100.000000
dtype: float64

#### 8. Analice la columna Netweight. ¿Encuentra alguna inconsistencia?

In [None]:
df['Netweight (kg)'].unique()

#La columna solo contiene valores 0 y nulos

array([nan,  0.])

#### 9. Calcule los límites inferiores y superiores de outlaiers de la columna Trade Value. ¿Qué cantidad posee dicha columna?

In [84]:
Q1 = df['Trade Value (US$)'].quantile(0.25)
Q3 = df['Trade Value (US$)'].quantile(0.75)
IQR = Q3 - Q1
print(f"IQR: {IQR}")
LSUP = Q3 + 1.5 * IQR
print(f"LSUP: {LSUP}")
LINF = Q1 - 1.5 * IQR
print(f"LINF: {LINF}")
outliers = df[(df['Trade Value (US$)'] > LSUP) | (df['Trade Value (US$)'] < LINF)]
print("Outliers: ", len(outliers))

IQR: 816586.75
LSUP: 2047498.875
LINF: -1218848.125
Outliers:  5720


IQR: 816586.75
LSUP: 2047498.875
LINF: -1218848.125
Cant Outliers 5720


#### 10. Analice el registro que presenta el máximo valor de Trade Value. ¿A qué corresponde? ¿Podría ser considerado un error o un caso poco frecuente? Fundamente su respuesta

In [93]:
#df[df['Trade Value (US$)']==df['Trade Value (US$)'].max()]
df[df['Trade Value (US$)']==df['Trade Value (US$)'].max()][['Period','Reporter','Commodity Code','Commodity','Partner','Mode of Transport','Trade Value (US$)']]

# Podria ser considerado un error, pero no creo que lo sea, el material de minerales en chile tiende a ser su exportacion principal asi que puede ser que en ese momento
# haya sido un buen año en la materia

Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
25,2018,Chile,26,"Ores, slag and ash",World,All MOTs,21210039528


In [20]:
df[df['Trade Value (US$)']==df['Trade Value (US$)'].max()][['Period','Reporter','Commodity Code','Commodity','Partner','Mode of Transport','Trade Value (US$)']]

Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
25,2018,Chile,26,"Ores, slag and ash",World,All MOTs,21210039528


#### 11. ¿Cuáles son los diferentes partners que Chile realiza sus exportaciones? ¿Qué le llama la atención del resultado?

In [None]:
df[df['Reporter']=='Chile']['Partner'].unique()
#df[df['Reporter']=='Chile']['Partner'].nunique()

#Hay un partner llamado mundo ("World")

array(['World', 'Algeria', 'Andorra', 'Angola', 'Antigua and Barbuda',
       'Azerbaijan', 'Argentina', 'Australia', 'Austria', 'Bahamas',
       'Bahrain', 'Bangladesh', 'Armenia', 'Barbados', 'Belgium',
       'Bermuda', 'Bolivia (Plurinational State of)',
       'Bosnia Herzegovina', 'Botswana', 'Brazil', 'Belize',
       'Br. Virgin Isds', 'Brunei Darussalam', 'Bulgaria', 'Myanmar',
       'Belarus', 'Cambodia', 'Cameroon', 'Canada', 'Cabo Verde',
       'Cayman Isds', 'Sri Lanka', 'China', 'Colombia', 'Comoros',
       'Congo', 'Dem. Rep. of the Congo', 'Cook Isds', 'Costa Rica',
       'Croatia', 'Cuba', 'Cyprus', 'Czechia', 'Benin', 'Denmark',
       'Dominica', 'Dominican Rep.', 'Ecuador', 'El Salvador',
       'Equatorial Guinea', 'Ethiopia', 'Estonia', 'Fiji', 'Finland',
       'France', 'French Polynesia', 'Fr. South Antarctic Terr.',
       'Djibouti', 'Gabon', 'Georgia', 'Germany', 'Ghana', 'Kiribati',
       'Greece', 'Grenada', 'Guam', 'Guatemala', 'Guinea', 'Guyana',
 

array(['World', 'Algeria', 'Andorra', 'Angola', 'Antigua and Barbuda',
       'Azerbaijan', 'Argentina', 'Australia', 'Austria', 'Bahamas',
       'Bahrain', 'Bangladesh', 'Armenia', 'Barbados', 'Belgium',
       'Bermuda', 'Bolivia (Plurinational State of)',
       'Bosnia Herzegovina', 'Botswana', 'Brazil', 'Belize',
       'Br. Virgin Isds', 'Brunei Darussalam', 'Bulgaria', 'Myanmar',
       'Belarus', 'Cambodia', 'Cameroon', 'Canada', 'Cabo Verde',
       'Cayman Isds', 'Sri Lanka', 'China', 'Colombia', 'Comoros',
       'Congo', 'Dem. Rep. of the Congo', 'Cook Isds', 'Costa Rica',
       'Croatia', 'Cuba', 'Cyprus', 'Czechia', 'Benin', 'Denmark',
       'Dominica', 'Dominican Rep.', 'Ecuador', 'El Salvador',
       'Equatorial Guinea', 'Ethiopia', 'Estonia', 'Fiji', 'Finland',
       'France', 'French Polynesia', 'Fr. South Antarctic Terr.',
       'Djibouti', 'Gabon', 'Georgia', 'Germany', 'Ghana', 'Kiribati',
       'Greece', 'Grenada', 'Guam', 'Guatemala', 'Guinea', 'Guyana',
 

#### Análisis del partner "World"

Como se pudo apreciar, el partner "World" es un valor que requiere mayor atención. Vamos a crear una nueva columna en el dataframe donde señalaremos si correponde a un registro "NotWorld:

In [127]:
df['NotWorld'] = df['Partner'].apply(lambda x: False if x == 'World' else True )

df['NotWorld']

0        False
1        False
2        False
3        False
4        False
         ...  
32533     True
32534     True
32535     True
32536     True
32537     True
Name: NotWorld, Length: 32538, dtype: bool

Ahora vamos a sumarizar los valores de registros World y NotWorld, lo haremos tomando como referencia el código de commodity 26

In [128]:
#print(df)
resumen = df[df['Commodity Code'] == 26].groupby('NotWorld')[['Trade Value (US$)', 'FOB Trade Value (US$)']].sum()
resumen

Unnamed: 0_level_0,Trade Value (US$),FOB Trade Value (US$)
NotWorld,Unnamed: 1_level_1,Unnamed: 2_level_1
False,111495065061,111495100000.0
True,111495064956,111495100000.0


Como se puede apreciar, el registro World totaliza los registros de los demás países. En la siguiente tabla pivoteada se aprecia con mayor claridad.

NotWorld,False,True,All
Partner,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Algeria,,33889390.0,33889390
Argentina,,24984660.0,24984664
Aruba,,12069.0,12069
Australia,,317755800.0,317755802
Austria,,141.0,141
Bahrain,,72038450.0,72038449
Belgium,,971890800.0,971890842
Bolivia (Plurinational State of),,141709.0,141709
Brazil,,3029797000.0,3029797286
Bulgaria,,1554337000.0,1554337081


#### 12. Elimine los registros con partner World

In [130]:
df_prueba = df.drop(df[df['Partner'] == 'World'].index)
df_prueba

Unnamed: 0,Classification,Year,Period,Period Desc.,Aggregate Level,Is Leaf Code,Trade Flow Code,Trade Flow,Reporter Code,Reporter,...,Alt Qty Unit Code,Alt Qty Unit,Alt Qty,Netweight (kg),Gross weight (kg),Trade Value (US$),CIF Trade Value (US$),FOB Trade Value (US$),Flag,NotWorld
96,H5,2018,2018,2018,2,0,0,X,152,Chile,...,-1,,0,,,1105780,,1105780.00,0,True
97,H5,2018,2018,2018,2,0,0,X,152,Chile,...,-1,,0,,,338489,,338489.00,0,True
98,H5,2018,2018,2018,2,0,0,X,152,Chile,...,-1,,0,,,8391498,,8391498.33,0,True
99,H5,2018,2018,2018,2,0,0,X,152,Chile,...,-1,,0,,,166058,,166058.40,0,True
100,H5,2018,2018,2018,2,0,0,X,152,Chile,...,-1,,0,,,2136,,2136.98,0,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32533,H5,2019,2019,2019,2,0,0,X,604,Peru,...,-1,,0,0.0,0.0,6470,,6470.19,0,True
32534,H5,2019,2019,2019,2,0,0,X,604,Peru,...,-1,,0,0.0,0.0,675,,675.00,0,True
32535,H5,2019,2019,2019,2,0,0,X,604,Peru,...,-1,,0,0.0,0.0,675,,675.00,0,True
32536,H5,2019,2019,2019,2,0,0,X,604,Peru,...,-1,,0,0.0,0.0,1600,,1600.40,0,True


#### 13. Vuelva a desplegar el registro con el mayor valor de Trade Value. ¿Qué diferencia se aprecia? ¿A quién le realiza la mayor exportación de ese commodity?

In [None]:
df_prueba = df.drop(df[df['Partner'] == 'World'].index)
#df_prueba[df_prueba['Trade Value (US$)']==df_prueba['Trade Value (US$)'].max()]

df_prueba[df_prueba['Trade Value (US$)']==df_prueba['Trade Value (US$)'].max()][['Period','Reporter','Commodity Code','Commodity','Partner','Mode of Transport','Trade Value (US$)']]

#Cambio el commodity a otro que exporta a China

Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
743,2018,Chile,26,"Ores, slag and ash",China,All MOTs,10678481900


Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
743,2018,Chile,26,"Ores, slag and ash",China,All MOTs,10678481900


#### Análisis columna Mode of Transport
Ahora encontramos que la columna Mode of Transport tiene el valor All MOTs, es posible que suceda lo mismo que con partner World. Antes de eliminar la columna, verificaremos si tanto Chile como Perú reportan sus exportaciones indicando el medio de transporte.

In [141]:
print(df[df['Reporter']=='Chile']['Mode of Transport'].unique())
#Chile solo tiene All MOT
print(df[df['Reporter']=='Peru']['Mode of Transport'].unique())
#Peru tiene varios


['All MOTs']
['All MOTs' 'Air' 'Road' 'Sea'
 'Postal consignments, mail or courier shipment' 'Inland waterway' 'Other'
 'Pipelines']


En este caso, se aprecia que Chile no reporta sus exportaciones desglosando el medio de transporte pero Perú sí lo hace. Si hubiéramos eliminado todos los registros de All MOTs, habríamos borrado los datos de Chile...

#### 15. Elimine los registros All MOTs solamente para el caso de Perú

In [None]:
df_prueba = df.drop(df[(df['Reporter'] == 'Peru') & (df['Mode of Transport'] == 'All MOTs')].index)
df_prueba[df_prueba['Reporter']=='Peru'][['Reporter','Mode of Transport']].sample(n=10)

Unnamed: 0,Reporter,Mode of Transport
24507,Peru,Road
22402,Peru,Air
15772,Peru,Sea
14890,Peru,Sea
24212,Peru,Air
17168,Peru,Air
9854,Peru,Air
8299,Peru,Air
9373,Peru,Sea
30993,Peru,Air


#### 16. Vuelva a desplegar el registro que presenta el máximo valor de Trade Value. ¿Quién es el principal partner de exportación de Chile, qué commodity se exporta y cuál es el medio de transporte?

In [None]:
df_prueba = df.drop(df[df['Partner'] == 'World'].index)
df_prueba = df_prueba.drop(df_prueba[(df_prueba['Reporter'] == 'Peru') & (df_prueba['Mode of Transport'] == 'All MOTs')].index)

df_prueba[df_prueba['Trade Value (US$)']==df_prueba['Trade Value (US$)'].max()][['Period','Reporter','Commodity Code','Commodity','Partner','Mode of Transport','Trade Value (US$)']]

##El principal partner es China y el medio as All MOTs, de todas maneras chile solo tenia All MOTs como transporte

Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
743,2018,Chile,26,"Ores, slag and ash",China,All MOTs,10678481900


Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
743,2018,Chile,26,"Ores, slag and ash",China,All MOTs,10678481900


#### 17. ¿Quién es el principal partner de exportaciones de Perú, qué commodity es y cuál es el medio de transporte?

In [None]:
df_prueba = df.drop(df[df['Partner'] == 'World'].index)
df_prueba = df_prueba.drop(df_prueba[(df_prueba['Reporter'] == 'Peru') & (df_prueba['Mode of Transport'] == 'All MOTs')].index)

df_prueba[df_prueba['Trade Value (US$)'] == df_prueba[df_prueba['Reporter'] == 'Peru']['Trade Value (US$)'].max()][
    ['Period', 'Reporter', 'Commodity Code', 'Commodity', 'Partner', 'Mode of Transport', 'Trade Value (US$)']
]

## El principal commodity es Ores y el medio es Sea


Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
23004,2019,Peru,26,"Ores, slag and ash",China,Sea,10618326550


Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
23004,2019,Peru,26,"Ores, slag and ash",China,Sea,10618326550


#### 18. Cree una columna adicional (Is Leather), booleana, con valor True si el commodity importado está relacionado con cuero (Leather). Posteriormente, contabilice cuántos registros tienen esta marca en True

In [201]:
df_prueba['Is Leather'] = df_prueba['Commodity'].apply(lambda x: True if 'leather' in x else False)
print(df_prueba['Is Leather'].sum())

395


395

#### 19. ¿Cuánto es el valor de las exportaciones de cuero de Chile el año 2019?

In [214]:
print(df_prueba[(df_prueba['Is Leather']) & (df_prueba['Reporter'] == 'Chile') & (df_prueba['Year'] == 2019)]['Trade Value (US$)'].sum())

48934992


48934992

---