## Trabajando sobre un csv de INDEC, esto es un poco de lo que se puede hacer con la librería Pandas, con funciones como:

- [groupby()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)
- [merge()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)
- [pivot_table()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html)
- [Excelwriter()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.ExcelWriter.html)

*P. D.* Intentaré cambiar el código para poder ver y trabajar el zip de INDEC sin bajarlo.
No tira el link para leer la URL.
Luego subiré un Excel o CSV con las descripciones de los NCM, aunque pueden bajarlo del sistema de consulta de Comercio Exterior de INDEC:

https://www.indec.gob.ar/indec/web/Nivel4-Tema-3-2-124  

-> Pestaña **'Nomencladores'**, bajando la última enmienda disponible (la más reciente/actual).

Como dato de color: el producto más exportado (mayor cantidad de transacciones) de entre los 10 más exportados en 2020, según este archivo (exponm20) bajado con datos hasta nov-2020, es lógicamente el **maíz en grano (NCM 10059010)**; mientras que lo que más U$D generó, dentro de este top 10, fue la **Harina y "pellets" de la extracción del aceite de soja (NCM 23040010)**.

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import pandas as pd
import numpy as np

In [4]:
exponm = pd.read_excel('/content/drive/MyDrive/Excels/exponm.xlsx')
df = pd.DataFrame(exponm)
df.head(10)

Unnamed: 0,Año,Mes,NCM,Pdes,Pnet(kg),FOB(u$s)
0,2020,1,1012100,208,,s2 ...
1,2020,1,1012100,212,,s2 ...
2,2020,1,1012100,225,,s2 ...
3,2020,1,1012100,999,3250.0,35580
4,2020,1,1012900,208,,s2 ...
5,2020,1,1012900,212,52450.0,1064400
6,2020,1,1012900,223,,s3 ...
7,2020,1,1012900,225,,s2 ...
8,2020,1,1012900,331,,s4 ...
9,2020,1,1012900,335,,s4 ...


In [5]:
ok = df.shape
print(f"there're {ok[0]} rows and {ok[1]} columns")

there're 143714 rows and 6 columns


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 143714 entries, 0 to 143713
Data columns (total 6 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   Año       143714 non-null  int64  
 1   Mes       143714 non-null  int64  
 2   NCM       143714 non-null  int64  
 3   Pdes      143714 non-null  int64  
 4   Pnet(kg)  34635 non-null   float64
 5   FOB(u$s)  143714 non-null  object 
dtypes: float64(1), int64(4), object(1)
memory usage: 6.6+ MB


<br/> Antes de seguir, un poco de teoría sobre trabajo con columnas:
*    .nunique() Devuelve cantidad de valores únicos  en la serie
*    .unique() Devuelve la lista con los valores únicos en la serie.
*    .value_counts() Devuelve una serie con los valores únicos como índice y como valores, la cantidad de repeticiones de cada índice.

In [7]:
for col in df.columns:
  print(f'La columna {col} tiene {df[col].nunique()} valores únicos')

La columna Año tiene 1 valores únicos
La columna Mes tiene 11 valores únicos
La columna NCM tiene 5272 valores únicos
La columna Pdes tiene 201 valores únicos
La columna Pnet(kg) tiene 33237 valores únicos
La columna FOB(u$s) tiene 34574 valores únicos


In [8]:
print(df['Mes'].unique())

[ 1  2  3  4  5  6  7  8  9 10 11]


In [9]:
# Un modo de ver los valores únicos de NCM (Nomenclador Común del Mercosur) y la cantidad total que hay

ncm_unicos = pd.DataFrame(df["NCM"].unique())
ncm_unicos.columns = ['Unique NCM']
print(ncm_unicos)

unicos = df["NCM"].nunique()
print(f"\nSe repiten {unicos} nomencladores, los cuales representas bienes transados")

      Unique NCM
0        1012100
1        1012900
2        1022110
3        1041011
4        1041019
...          ...
5267    91011100
5268    91129000
5269    92089000
5270    95051000
5271    95062900

[5272 rows x 1 columns]

Se repiten 5272 nomencladores, los cuales representas bienes transados


In [10]:
# Un modo más bonito con "groupby", que además me dice cuántas veces se repite cada uno

cuenta_repes = df.groupby(['NCM']).size().reset_index(name = 'Cuenta')
cuenta_repes.sort_values(by = ['Cuenta'], ascending = False, inplace = True)
print(cuenta_repes.head(10))

print(f'\nEl dataset tiene {cuenta_repes.shape[0]} filas') # mismas que vimos en la celda anterior, está OK

# 1- El comando "reset_index" me ayuda a convertir la serie en un dataframe y a darle un título a la nueva columna creada con... (sigue)
# 1- "size()" que me dice la cantidad de veces que dicho bien se comerció
# 2- "El sort_values es para un mejor panorama de los bienes más intercambiados, o exportados en este caso
# 3- La función "groupby" es más útil si se considera más de una serie/columna

           NCM  Cuenta
314   10059010     831
615   22042100     815
354   12024200     623
5270  99980500     530
1936  38220090     409
645   23040010     395
3450  73269090     380
1594  30049099     377
2190  39269090     359
361   12060090     349

El dataset tiene 5272 filas


In [11]:
# Otro modo, este repite, pero no agrupa. Para el caso NO VA

df.agg({'NCM':'unique', 'NCM':'tolist'})

Unnamed: 0,NCM
0,1012100
1,1012100
2,1012100
3,1012100
4,1012900
...,...
143709,99980500
143710,99980500
143711,99980500
143712,99980500


In [12]:
# Otro modo, más rápido y eficiente para el caso, usando "value_counts"

cuenta_repes_1 = pd.DataFrame(df['NCM'].value_counts().reset_index(name = 'Cuenta'))
cuenta_repes_1.rename(columns = {'index':'NCM'}, inplace = True)

print(cuenta_repes_1.head(10))
print('\nLos diez más comerciados totalizan', sum(cuenta_repes_1['Cuenta'][0:10]), 'filas\n')

        NCM  Cuenta
0  10059010     831
1  22042100     815
2  12024200     623
3  99980500     530
4  38220090     409
5  23040010     395
6  73269090     380
7  30049099     377
8  39269090     359
9  12060090     349

Los diez más comerciados totalizan 5068 filas



In [13]:
# Valores U$S FOB y Kg. para los 10 bienes más exportados

top_10_NCMs = cuenta_repes_1[0:10]
print(top_10_NCMs)
print('\n', type(top_10_NCMs), "\n")
print("Chequeo: los 10 NCMs más repetidos totalizan", top_10_NCMs['Cuenta'].sum(), 'filas\n')

info_top_10 = pd.merge(df, top_10_NCMs, how = 'inner', on = 'NCM').dropna() # "dropna" para borrar filas con missing values

table = pd.pivot_table(info_top_10, index = ['Año', 'Mes'], columns = ['NCM'], 
                       values = ['Pnet(kg)', 'FOB(u$s)'], 
                       aggfunc = {'Pnet(kg)':np.sum, 'FOB(u$s)':np.sum}, 
                       margins = True, margins_name = 'Suma')
table

        NCM  Cuenta
0  10059010     831
1  22042100     815
2  12024200     623
3  99980500     530
4  38220090     409
5  23040010     395
6  73269090     380
7  30049099     377
8  39269090     359
9  12060090     349

 <class 'pandas.core.frame.DataFrame'> 

Chequeo: los 10 NCMs más repetidos totalizan 5068 filas



Unnamed: 0_level_0,Unnamed: 1_level_0,FOB(u$s),FOB(u$s),FOB(u$s),FOB(u$s),FOB(u$s),FOB(u$s),FOB(u$s),FOB(u$s),FOB(u$s),FOB(u$s),FOB(u$s),Pnet(kg),Pnet(kg),Pnet(kg),Pnet(kg),Pnet(kg),Pnet(kg),Pnet(kg),Pnet(kg),Pnet(kg),Pnet(kg),Pnet(kg)
Unnamed: 0_level_1,NCM,10059010,12024200,12060090,22042100,23040010,30049099,38220090,39269090,73269090,99980500,Suma,10059010,12024200,12060090,22042100,23040010,30049099,38220090,39269090,73269090,99980500,Suma
Año,Mes,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2
2020,1.0,314399700.0,60605870.0,1245614.83,43065330.0,532398100.0,3377585.18,1252932.2,1139046.86,2014942.91,156776.01,959655900.0,1862206000.0,49579850.0,1667679.2,11810920.0,1654599000.0,202705.56,36823.66,174946.61,556417.73,43900.42,3580878000.0
2020,2.0,281912700.0,62309730.0,11071661.08,52910750.0,493428300.0,4512250.18,972809.47,979564.83,2722601.2,134329.03,910954700.0,1663288000.0,50550140.0,30132360.0,14267800.0,1518434000.0,273293.02,22504.94,131567.03,1109356.19,31387.37,3278241000.0
2020,3.0,609718300.0,55711810.0,11367616.21,51636330.0,582424900.0,3635727.64,996357.37,1037779.85,2362956.12,164101.85,1319056000.0,3641897000.0,44274740.0,30261971.0,13854390.0,1778678000.0,160317.48,24245.09,137762.25,862661.36,41651.05,5510192000.0
2020,4.0,696969500.0,58247800.0,25495969.52,50925590.0,689037700.0,2383511.22,986097.66,602668.04,714845.74,112945.84,1525477000.0,4199802000.0,46382990.0,63892753.0,13997720.0,2092122000.0,252718.24,33521.96,66866.71,126804.55,26078.15,6416704000.0
2020,5.0,655783500.0,65950590.0,17288773.38,60025950.0,808253600.0,6263111.24,916378.36,1053122.42,808331.67,162599.72,1616506000.0,4085331000.0,52367340.0,41387928.0,19350920.0,2511616000.0,292993.78,29418.25,115726.21,190045.68,44077.72,6710725000.0
2020,6.0,706663800.0,65002700.0,5675015.27,38447450.0,829851200.0,4567319.1,1129194.8,1128863.18,1595756.0,104890.5,1654166000.0,4578117000.0,51209520.0,7806131.0,14051360.0,2598018000.0,276220.17,30824.67,119945.76,460561.1,26138.37,7250115000.0
2020,7.0,664759500.0,81532950.0,7032046.18,61841010.0,666101100.0,3534014.81,478832.63,1196951.91,1839657.1,127781.37,1488444000.0,4320893000.0,62977010.0,10551475.0,18159100.0,2080200000.0,279712.25,13850.71,132120.27,684864.91,21099.7,6493913000.0
2020,8.0,723601700.0,78164050.0,4931526.03,77676140.0,648087400.0,8600237.91,931950.11,1400976.94,1775487.06,179570.11,1545349000.0,4585658000.0,61040040.0,6934095.0,21135910.0,2016703000.0,285720.59,42002.21,200473.37,574970.01,27720.09,6692602000.0
2020,9.0,485488700.0,83810540.0,4516891.03,63719030.0,722247200.0,3392723.81,901258.56,1205376.79,2656447.22,146794.48,1368085000.0,3028058000.0,66041950.0,6627928.0,18147560.0,2179456000.0,320205.58,22388.12,137265.67,871338.79,30999.67,5299714000.0
2020,10.0,433610600.0,80387480.0,2092225.75,60234800.0,763318700.0,4507480.0,916720.0,1480306.82,2969037.0,145418.11,1349663000.0,2541854000.0,63080230.0,2724462.0,17810820.0,2017299000.0,225985.71,30238.36,203708.07,1064864.01,39912.95,4644334000.0


In [14]:
# Borrar las filas con NaN de la siguiente manera es análoga a la anterior:

# info_top_10.dropna(axis = 'index', subset = ['Pnet(kg)'], how = 'any', inplace = True) 
# the parameter 'axis = index' and 'how = any' are the default
# info_top_10

In [15]:
# Lo siguiente es análogo a la "tabla dinámica" anterior sin los totales ('margins')
# Con un formato tabular (tabla común). Seguro te copa más este

info_top_10 = info_top_10.groupby(['Año', 'Mes', 'NCM'], as_index = False).agg({'Pnet(kg)':'sum', 'FOB(u$s)':'sum'})
info_top_10['USD/KG'] =  info_top_10['FOB(u$s)'] / info_top_10['Pnet(kg)']

# Lo que busco es el ratio usd/kg, para ver cuál es el producto más caro de este top 10
# Para visualizar todo, uso el comando 'pd.set_option()'

pd.set_option('display.max_rows', info_top_10.shape[0]+1) # me aseguro de ver todas las filas del dataset
info_top_10

Unnamed: 0,Año,Mes,NCM,Pnet(kg),FOB(u$s),USD/KG
0,2020,1,10059010,1862206000.0,314399700.0,0.168832
1,2020,1,12024200,49579850.0,60605870.0,1.222389
2,2020,1,12060090,1667679.0,1245615.0,0.746915
3,2020,1,22042100,11810920.0,43065330.0,3.64623
4,2020,1,23040010,1654599000.0,532398100.0,0.321769
5,2020,1,30049099,202705.6,3377585.0,16.662519
6,2020,1,38220090,36823.66,1252932.0,34.025195
7,2020,1,39269090,174946.6,1139047.0,6.510826
8,2020,1,73269090,556417.7,2014943.0,3.621277
9,2020,1,99980500,43900.42,156776.0,3.571173


In [63]:
pd.reset_option('max_rows') # reseteo el máximo de filas que veo

print("La media USD/KG del top 10 más exportados es", info_top_10['USD/KG'].mean(), '\n') 
# I will look the NCMs whose USD/KG ratio is bigger than the total average

grouped = info_top_10[info_top_10['USD/KG'] > info_top_10['USD/KG'].mean()]
grouped.sort_values(by= ['USD/KG'], ascending = False, inplace = True)
grouped

La media USD/KG del top 10 más exportados es 7.381922868044652 



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  import sys


Unnamed: 0,Año,Mes,NCM,Pnet(kg),FOB(u$s),USD/KG
16,2020,2,38220090,22504.94,972809.47,43.226486
26,2020,3,38220090,24245.09,996357.37,41.095223
86,2020,9,38220090,22388.12,901258.56,40.256107
56,2020,6,38220090,30824.67,1129194.8,36.632827
66,2020,7,38220090,13850.71,478832.63,34.570981
6,2020,1,38220090,36823.66,1252932.2,34.025195
105,2020,11,30049099,161124.08,5339677.36,33.140157
46,2020,5,38220090,29418.25,916378.36,31.149996
96,2020,10,38220090,30238.36,916720.0,30.316459
75,2020,8,30049099,285720.59,8600237.91,30.100169


In [64]:
print(f'Los bienes más caros (por arriba de la media) del top 10 corresponden a {list(grouped["NCM"].unique())}')
print('Y son', grouped['USD/KG'].count(), 'transacciones en total\n')

grouped.reset_index(drop = True, inplace = True) # Reseteo el índice
grouped

Los bienes más caros (por arriba de la media) del top 10 corresponden a [38220090, 30049099, 39269090]
Y son 30 transacciones en total



Unnamed: 0,Año,Mes,NCM,Pnet(kg),FOB(u$s),USD/KG
0,2020,2,38220090,22504.94,972809.47,43.226486
1,2020,3,38220090,24245.09,996357.37,41.095223
2,2020,9,38220090,22388.12,901258.56,40.256107
3,2020,6,38220090,30824.67,1129194.8,36.632827
4,2020,7,38220090,13850.71,478832.63,34.570981
5,2020,1,38220090,36823.66,1252932.2,34.025195
6,2020,11,30049099,161124.08,5339677.36,33.140157
7,2020,5,38220090,29418.25,916378.36,31.149996
8,2020,10,38220090,30238.36,916720.0,30.316459
9,2020,8,30049099,285720.59,8600237.91,30.100169


In [183]:
# Los más caros del Top 10 en cada mes

table_2 = pd.pivot_table(info_top_10, values = ['USD/KG'], index = ['Año','Mes'],
                         aggfunc = {'USD/KG': max}).reset_index()

table_2 = pd.merge(table_2, info_top_10, how='inner', on='USD/KG', indicator=False)
table_2.drop(['Año_y','Mes_y'], axis=1)

Unnamed: 0,Año_x,Mes_x,USD/KG,NCM,Pnet(kg),FOB(u$s)
0,2020,1,34.025195,38220090,36823.66,1252932.2
1,2020,2,43.226486,38220090,22504.94,972809.47
2,2020,3,41.095223,38220090,24245.09,996357.37
3,2020,4,29.416468,38220090,33521.96,986097.66
4,2020,5,31.149996,38220090,29418.25,916378.36
5,2020,6,36.632827,38220090,30824.67,1129194.8
6,2020,7,34.570981,38220090,13850.71,478832.63
7,2020,8,30.100169,30049099,285720.59,8600237.91
8,2020,9,40.256107,38220090,22388.12,901258.56
9,2020,10,30.316459,38220090,30238.36,916720.0


In [17]:
# Una manera para borrar los datos confidenciales, también se puede tratar como string toda la serie

def corrige(x):
  for i in x:
    if i == ' s':
      return int(x.replace('s',''))

In [18]:
corrige(df['Pnet(kg)'])
df.head(10)

Unnamed: 0,Año,Mes,NCM,Pdes,Pnet(kg),FOB(u$s)
0,2020,1,1012100,208,,s2 ...
1,2020,1,1012100,212,,s2 ...
2,2020,1,1012100,225,,s2 ...
3,2020,1,1012100,999,3250.0,35580
4,2020,1,1012900,208,,s2 ...
5,2020,1,1012900,212,52450.0,1064400
6,2020,1,1012900,223,,s3 ...
7,2020,1,1012900,225,,s2 ...
8,2020,1,1012900,331,,s4 ...
9,2020,1,1012900,335,,s4 ...


In [19]:
# Ahora borro las filas con "NaN" (equivalente al 'Null' de SQL)

sin_confidenciales = df.dropna(axis = 0, subset = ['Pnet(kg)'], how='any') # "axis = 0" marca que trabaje sobre columnas
sin_confidenciales.sort_values(by = ['Año', 'Mes', 'NCM', 'Pdes'], ascending = True, inplace = True)
# sin_confidenciales.groupby(['Año', 'Mes', 'NCM', 'Pdes']).agg({'Pnet(kg)':'sum', 'FOB(u$s)':'sum'})
sin_confidenciales

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


Unnamed: 0,Año,Mes,NCM,Pdes,Pnet(kg),FOB(u$s)
3,2020,1,1012100,999,3.250000e+03,35580
5,2020,1,1012900,212,5.245000e+04,1064400
14,2020,1,1012900,999,4.416000e+04,621350
42,2020,1,2012090,341,2.511300e+03,29316.6
44,2020,1,2012090,999,9.296800e+02,10154.3
...,...,...,...,...,...,...
143706,2020,11,99980500,426,2.080000e+02,1102.4
143709,2020,11,99980500,438,7.806000e+01,2182.12
143710,2020,11,99980500,451,5.133400e+02,1134.25
143712,2020,11,99980500,999,9.604210e+03,32634.7


In [20]:
# Guardo este dataset y también la tabla anterior, juntos, en un nuevo Excel con "ExcelWriter"
# En donde dice '(...)' pueden poner la ruta de su drive que deseen (con la extensión ".xlsx" al final)...
# y al ejectutar la celda se creará un Excel en la misma con los dos dataframes como hojas

writer = pd.ExcelWriter('/content/drive/MyDrive/(...).xlsx')
sin_confidenciales.to_excel(writer, sheet_name = 'Sin confidenciales', index = False, freeze_panes = (1,2))
table.to_excel(writer, sheet_name = 'Top 10 NCMs ', index_label = True, freeze_panes = (3,2))
writer.save()