---
# DataWrangling Comtrade

La siguiente base de datos fue extraida desde UN Comtrade (https://comtrade.un.org/), que correspone a una base de datos con información histórica de comercio entre paises, mantenida por las Naciones Unidas.

Los datos informados correponden a transacciones de Chile y de Perú.

#### 1. Importar librerías

In [1]:
import pandas as pd

#### 2. Realice la lectura de datos

In [2]:
df = pd.read_csv('Comtrade-X-CL-PE.csv')

#### 3. Realice operaciones básicas de exploración del dataset

In [3]:
df.shape

(32538, 35)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32538 entries, 0 to 32537
Data columns (total 35 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Classification          32538 non-null  object 
 1   Year                    32538 non-null  int64  
 2   Period                  32538 non-null  int64  
 3   Period Desc.            32538 non-null  int64  
 4   Aggregate Level         32538 non-null  int64  
 5   Is Leaf Code            32538 non-null  int64  
 6   Trade Flow Code         32538 non-null  int64  
 7   Trade Flow              32538 non-null  object 
 8   Reporter Code           32538 non-null  int64  
 9   Reporter                32538 non-null  object 
 10  Reporter ISO            32538 non-null  object 
 11  Partner Code            32538 non-null  int64  
 12  Partner                 32538 non-null  object 
 13  Partner ISO             32538 non-null  object 
 14  2nd Partner Code        32538 non-null

In [5]:
df.describe()

Unnamed: 0,Year,Period,Period Desc.,Aggregate Level,Is Leaf Code,Trade Flow Code,Reporter Code,Partner Code,2nd Partner Code,Mode of Transport Code,...,Qty,Alt Qty Unit Code,Alt Qty Unit,Alt Qty,Netweight (kg),Gross weight (kg),Trade Value (US$),CIF Trade Value (US$),FOB Trade Value (US$),Flag
count,32538.0,32538.0,32538.0,32538.0,32538.0,32538.0,32538.0,32538.0,32538.0,32538.0,...,32538.0,32538.0,0.0,32538.0,28353.0,28468.0,32538.0,0.0,32538.0,32538.0
mean,2018.500338,2018.500338,2018.500338,2.0,0.0,0.0,491.479255,408.469758,0.0,854.991087,...,0.0,-1.0,,0.0,0.0,0.0,20496440.0,,20496440.0,0.226935
std,0.500008,0.500008,0.500008,0.0,0.0,0.0,195.447263,269.264814,0.0,1260.299492,...,0.0,0.0,,0.0,0.0,0.0,358912200.0,,358912200.0,0.925346
min,2018.0,2018.0,2018.0,2.0,0.0,0.0,152.0,0.0,0.0,0.0,...,0.0,-1.0,,0.0,0.0,0.0,0.0,,0.01,0.0
25%,2018.0,2018.0,2018.0,2.0,0.0,0.0,604.0,178.0,0.0,0.0,...,0.0,-1.0,,0.0,0.0,0.0,6032.0,,6032.0,0.0
50%,2019.0,2019.0,2019.0,2.0,0.0,0.0,604.0,380.0,0.0,0.0,...,0.0,-1.0,,0.0,0.0,0.0,72200.0,,72200.0,0.0
75%,2019.0,2019.0,2019.0,2.0,0.0,0.0,604.0,642.0,0.0,2100.0,...,0.0,-1.0,,0.0,0.0,0.0,822618.8,,822619.0,0.0
max,2019.0,2019.0,2019.0,2.0,0.0,0.0,604.0,899.0,0.0,9900.0,...,0.0,-1.0,,0.0,0.0,0.0,21210040000.0,,21210040000.0,4.0


#### 4. ¿Cuántas filas y columnas tiene el dataset?

In [6]:
df.shape

(32538, 35)

#### 5. ¿Cuántos reporters distintos hay en los datos? (campo Reporter)

In [7]:
df['Reporter'].unique()

array(['Chile', 'Peru'], dtype=object)

#### 5. ¿Qué años de data considera el reporte?

In [8]:
df['Year'].unique()

array([2018, 2019], dtype=int64)

#### 5. Haga un análisis de valores nulos

In [9]:
df.isnull().sum()

Classification                0
Year                          0
Period                        0
Period Desc.                  0
Aggregate Level               0
Is Leaf Code                  0
Trade Flow Code               0
Trade Flow                    0
Reporter Code                 0
Reporter                      0
Reporter ISO                  0
Partner Code                  0
Partner                       0
Partner ISO                   0
2nd Partner Code              0
2nd Partner                   0
2nd Partner ISO               0
Customs Proc. Code            0
Customs                       0
Mode of Transport Code        0
Mode of Transport             0
Commodity Code                0
Commodity                     0
Qty Unit Code                 0
Qty Unit                  32538
Qty                           0
Alt Qty Unit Code             0
Alt Qty Unit              32538
Alt Qty                       0
Netweight (kg)             4185
Gross weight (kg)          4070
Trade Va

#### 6. En base al análisis anterior, ¿eliminaría columnas? ¿cuáles? Si es así, proceda...

#### 7. ¿Que densidad de datos tienen las columnas Netwweight y Trade Value?
Nos referimos al porcentaje de datos no nulo que tiene cada columna respecto al total

In [16]:
(1 - df[['Netweight (kg)','Trade Value (US$)']].isnull().sum()/df.shape[0])*100

Netweight (kg)        87.138115
Trade Value (US$)    100.000000
dtype: float64

#### 8. Analice la columna Netweight. ¿Encuentra alguna inconsistencia?

In [None]:
df['Netweight (kg)'].describe()

#### 9. Calcule los límites inferiores y superiores de outlaiers de la columna Trade Value. ¿Qué cantidad posee dicha columna?

In [18]:
q1 = df['Trade Value (US$)'].quantile(.25)
q3 = df['Trade Value (US$)'].quantile(.75)

iqr = q3 - q1
print('IQR:',iqr)

lsup = q3 + 1.5*iqr
print('LSUP:',lsup)

linf = q1 - 1.5*iqr
print('LINF:',linf)

cant = df[df['Trade Value (US$)']>lsup]['Period'].count()
print('Cant Outliers',cant)

IQR: 816586.75
LSUP: 2047498.875
LINF: -1218848.125
Cant Outliers 5720


#### 10. Analice el registro que presenta el máximo valor de Trade Value. ¿A qué corresponde? ¿Podría ser considerado un error o un caso poco frecuente? Fundamente su respuesta

In [20]:
df[df['Trade Value (US$)']==df['Trade Value (US$)'].max()][['Period','Reporter','Commodity Code','Commodity','Partner','Mode of Transport','Trade Value (US$)']]

Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
25,2018,Chile,26,"Ores, slag and ash",World,All MOTs,21210039528


#### 11. ¿Cuáles son los diferentes partners que Chile realiza sus exportaciones? ¿Qué le llama la atención del resultado?

In [21]:
df[df['Reporter']=='Chile']['Partner'].unique()

array(['World', 'Algeria', 'Andorra', 'Angola', 'Antigua and Barbuda',
       'Azerbaijan', 'Argentina', 'Australia', 'Austria', 'Bahamas',
       'Bahrain', 'Bangladesh', 'Armenia', 'Barbados', 'Belgium',
       'Bermuda', 'Bolivia (Plurinational State of)',
       'Bosnia Herzegovina', 'Botswana', 'Brazil', 'Belize',
       'Br. Virgin Isds', 'Brunei Darussalam', 'Bulgaria', 'Myanmar',
       'Belarus', 'Cambodia', 'Cameroon', 'Canada', 'Cabo Verde',
       'Cayman Isds', 'Sri Lanka', 'China', 'Colombia', 'Comoros',
       'Congo', 'Dem. Rep. of the Congo', 'Cook Isds', 'Costa Rica',
       'Croatia', 'Cuba', 'Cyprus', 'Czechia', 'Benin', 'Denmark',
       'Dominica', 'Dominican Rep.', 'Ecuador', 'El Salvador',
       'Equatorial Guinea', 'Ethiopia', 'Estonia', 'Fiji', 'Finland',
       'France', 'French Polynesia', 'Fr. South Antarctic Terr.',
       'Djibouti', 'Gabon', 'Georgia', 'Germany', 'Ghana', 'Kiribati',
       'Greece', 'Grenada', 'Guam', 'Guatemala', 'Guinea', 'Guyana',
 

#### Análisis del partner "World"

Como se pudo apreciar, el partner "World" es un valor que requiere mayor atención. Vamos a crear una nueva columna en el dataframe donde señalaremos si correponde a un registro "NotWorld:

In [22]:
df['NotWorld'] = df['Partner'].apply(lambda x : x !='World')

Ahora vamos a sumarizar los valores de registros World y NotWorld, lo haremos tomando como referencia el código de commodity 26

In [23]:
df[df['Commodity Code']==26].groupby('NotWorld').sum()[['Trade Value (US$)','FOB Trade Value (US$)']]

Unnamed: 0_level_0,Trade Value (US$),FOB Trade Value (US$)
NotWorld,Unnamed: 1_level_1,Unnamed: 2_level_1
False,111495065061,111495100000.0
True,111495064956,111495100000.0


Como se puede apreciar, el registro World totaliza los registros de los demás países. En la siguiente tabla pivoteada se aprecia con mayor claridad.

In [24]:
df[df['Commodity Code']==26].pivot_table(index='Partner', columns='NotWorld', 
                                         values='Trade Value (US$)', aggfunc='sum', 
                                                                        margins=True)

NotWorld,False,True,All
Partner,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Algeria,,33889390.0,33889390
Argentina,,24984660.0,24984664
Aruba,,12069.0,12069
Australia,,317755800.0,317755802
Austria,,141.0,141
Bahrain,,72038450.0,72038449
Belgium,,971890800.0,971890842
Bolivia (Plurinational State of),,141709.0,141709
Brazil,,3029797000.0,3029797286
Bulgaria,,1554337000.0,1554337081


#### 12. Elimire los registros con partner World

In [25]:
df.drop(df[df['Partner']=='World'].index, axis=0, inplace=True)

#### 13. Vuelva a desplegar el registro con el mayor valor de Trade Value. ¿Qué diferencia se aprecia? ¿A quién le realiza la mayor exportación de ese commodity?

In [27]:
df[df['Trade Value (US$)']==df['Trade Value (US$)'].max()][['Period','Reporter','Commodity Code','Commodity','Partner','Mode of Transport','Trade Value (US$)']]

Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
743,2018,Chile,26,"Ores, slag and ash",China,All MOTs,10678481900


#### Análisis columna Mode of Transport
Ahora encontramos que la columna Mode of Transport tiene el valor All MOTs, es posible que suceda lo mismo que con partner World. Antes de eliminar la columna, verificaremos si tanto Chile como Perú reportan sus exportaciones indicando el medio de transporte.

In [28]:
df['NotAllMOTs'] = df['Partner'].apply(lambda x : x !='All MOTs')

# tomamos como ejemplo los commodities de Animales y carne (commodity code = 2)
df[df['Commodity Code']==2].pivot_table(index=['Reporter','Mode of Transport'], 
                                        columns='NotAllMOTs', 
                                        values='Trade Value (US$)', 
                                        aggfunc='sum', margins=True)


Unnamed: 0_level_0,NotAllMOTs,True,All
Reporter,Mode of Transport,Unnamed: 2_level_1,Unnamed: 3_level_1
Chile,All MOTs,2101889437,2101889437
Peru,Air,193991,193991
Peru,All MOTs,9595133,9595133
Peru,Sea,9401142,9401142
All,,2121079703,2121079703


En este caso, se aprecia que Chile no reporta sus exportaciones desglosando el medio de transporte pero Perú sí lo hace. Si hubiéramos eliminado todos los registros de All MOTs, habríamos borrado los datos de Chile...

#### 15. Elimine los registros All MOTs solamente para el caso de Perú

In [29]:
df.drop(df[(df['Mode of Transport']=='All MOTs')&(df['Reporter']=='Peru')].index, axis=0, inplace=True)

#### 16. Vuelva a desplegar el registro que presenta el máximo valor de Trade Value. ¿Quién es el principal partner de exportación de Chile, qué commodity se exporta y cuál es el medio de transporte?

In [31]:
df2 = df[df['Reporter']=='Chile']
df2[df2['Trade Value (US$)']==df2['Trade Value (US$)'].max()][['Period','Reporter','Commodity Code','Commodity','Partner','Mode of Transport','Trade Value (US$)']]

Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
743,2018,Chile,26,"Ores, slag and ash",China,All MOTs,10678481900


#### 17. ¿Quién es el principal partner de exportaciones de Perú, qué commodity es y cuál es el medio de transporte?

In [32]:
df2 = df[df['Reporter']=='Peru']
df2[df2['Trade Value (US$)']==df2['Trade Value (US$)'].max()][['Period','Reporter','Commodity Code','Commodity','Partner','Mode of Transport','Trade Value (US$)']]

Unnamed: 0,Period,Reporter,Commodity Code,Commodity,Partner,Mode of Transport,Trade Value (US$)
23004,2019,Peru,26,"Ores, slag and ash",China,Sea,10618326550


#### 18. Cree una columna adicional (Is Leather), booleana, con valor True si el commodity importado está relacionado con cuero (Leather). Posteriormente, contabilice cuántos registros tienen esta marca en True

In [33]:
df['isLeather'] = df['Commodity'].apply(lambda x : 'leather' in x.lower())
df['isLeather'].sum()

395

#### 19. ¿Cuánto es el valor de las exportaciones de cuero de Chile el año 2019?

In [34]:
df[(df['isLeather']==True)&(df['Reporter']=='Chile')&(df['Year']==2019)]['Trade Value (US$)'].sum()

48934992

## Buen trabajo!!

---