In [1]:
import numpy as np
import pandas as pd

In [2]:
import string
import re

## AFIP

In [3]:
ruta = ".\TablasOriginales\clae_agg.csv"
clae = pd.read_csv(ruta)

### Documetación del dataset

|Título de la columna|Tipo de dato|Descripción|
|:------------------:|------------|-----------|
|clae6|Número entero (integer)|Nomenclador de mayor desagregación con el que AFIP caracteriza a los sectores de actividad|
|clae6_desc|Texto (string)|Descripción de la actividad codificada a seis dígitos|
|clae3|Número entero (integer)|Nomenclador a tres dígitos con el que AFIP caracteriza a los sectores de actividad|
|clae3_desc|Texto (string)|Descripción de la actividad codificada a tres dígitos|
|clae2|Número entero (integer)|Nomenclador a dos dígitos con el que AFIP caracteriza a los sectores de actividad|  
|clae2_desc|Texto (string)|Descripción de la actividad codificada a dos dígitos|
|letra|Texto (string)|Nomenclador de mayor agregación con el que AFIP caracteriza a los sectores de actividad|
|letra_desc|Texto (string)|Descripción de la actividad codificada con letra|

In [4]:
clae.head()

Unnamed: 0,clae6,clae6_desc,clae3,clae3_desc,clae2,clae2_desc,letra,letra_desc
0,14211,"Cría de ganado equino, excepto la realizada en...",14,Cría de animales,1,"Agricultura, ganadería, caza y servicios relac...",A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y ..."
1,11331,Cultivo de hortalizas de hoja y de otras horta...,11,Cultivos temporales,1,"Agricultura, ganadería, caza y servicios relac...",A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y ..."
2,14410,Cría de ganado ovino -excepto en cabañas y par...,14,Cría de animales,1,"Agricultura, ganadería, caza y servicios relac...",A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y ..."
3,11211,Cultivo de soja,11,Cultivos temporales,1,"Agricultura, ganadería, caza y servicios relac...",A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y ..."
4,17010,Caza y repoblación de animales de caza (Inclu...,17,"Caza, repoblación de animales de caza y serv...",1,"Agricultura, ganadería, caza y servicios relac...",A,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y ..."


In [5]:
clae.letra.unique()

array(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M',
       'N', 'O', 'P', 'Q', 'R', 'S', 'Z'], dtype=object)

In [6]:
clae.clae2.unique()

array([  1,   2,   3,   5,   6,   7,   8,   9,  10,  11,  12,  13,  14,
        15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  27,
        28,  29,  30,  31,  32,  33,  35,  36,  37,  38,  39,  41,  42,
        43,  45,  46,  47,  49,  50,  51,  52,  53,  55,  56,  58,  59,
        60,  61,  62,  63,  64,  65,  66,  68,  69,  70,  71,  72,  73,
        74,  75,  77,  78,  79,  80,  81,  82,  84,  85,  86,  87,  88,
        90,  91,  92,  93,  94,  95,  96, 999], dtype=int64)

In [7]:
pd.unique(clae.clae6_desc)

array(['Cría de ganado equino, excepto la realizada en haras (Incluye equinos de trabajo, asnos, mulas, burdéganos)',
       'Cultivo de hortalizas de hoja y de otras hortalizas frescas (Incluye acelga, apio, coles, espinaca, lechuga, perejil, radicheta, repollo, etc.)',
       'Cría de ganado ovino -excepto en cabañas y para la  producción de lana y leche-',
       'Cultivo de soja',
       'Caza y repoblación  de animales de caza (Incluye la caza de animales para obtener carne, pieles y cueros y la captura de animales vivos para zoológicos, animales de compañía, para investigación, etc.)',
       'Cultivo de tabaco', 'Cultivo de uva de mesa',
       'Producción de pelos de ganado n.c.p.',
       'Cultivo de vid para vinificar ',
       'Cría de ganado porcino realizado en cabañas',
       'Cría de ganado equino realizada en haras (Incluye la producción de semen)',
       'Cultivo de yerba mate',
       'Cultivo de té y otras plantas cuyas hojas se utilizan para preparar infusiones',


In [8]:
def quitar_acentos(string):
    x = string
    x = x.replace('Á','A').replace('É','E').replace('Í','I')
    x = x.replace('Ó','O').replace('Ú','U')
    return x

def organizar_string(string):
    x = string.strip()
    x = x.upper()
    x = quitar_acentos(x)
    x = re.sub(r'\s+', ' ', x)
    return x

In [9]:
pd.unique(clae.clae3_desc)

array([' Cría de animales', ' Cultivos temporales',
       ' Caza, repoblación  de animales de caza y servicios de apoyo',
       ' Cultivos perennes', ' Servicios de apoyo agrícolas y pecuarios',
       ' Producción de semillas y de otras formas de propagación de cultivos agrícolas',
       ' Servicios de apoyo a la silvicultura', ' Silvicultura',
       ' Extracción de productos forestales',
       ' Pesca y servicios de apoyo',
       ' Explotación de criaderos de peces, granjas piscícolas y otros frutos acuáticos (acuicultura)',
       ' Extracción y aglomeración de lignito',
       ' Extracción y aglomeración de carbón ',
       ' Extracción de gas natural', ' Extracción de petróleo crudo',
       ' Extracción de minerales metalíferos no ferrosos',
       ' Extracción de minerales de hierro',
       ' Extracción de piedra, arena y arcillas',
       ' Explotación de minas y canteras ncp',
       ' Servicios de apoyo para la extracción de petróleo y gas natural',
       ' Servicios 

In [10]:
clae.clae3_desc = clae.clae3_desc.apply(organizar_string)
pd.unique(clae.clae3_desc)

array(['CRIA DE ANIMALES', 'CULTIVOS TEMPORALES',
       'CAZA, REPOBLACION DE ANIMALES DE CAZA Y SERVICIOS DE APOYO',
       'CULTIVOS PERENNES', 'SERVICIOS DE APOYO AGRICOLAS Y PECUARIOS',
       'PRODUCCION DE SEMILLAS Y DE OTRAS FORMAS DE PROPAGACION DE CULTIVOS AGRICOLAS',
       'SERVICIOS DE APOYO A LA SILVICULTURA', 'SILVICULTURA',
       'EXTRACCION DE PRODUCTOS FORESTALES', 'PESCA Y SERVICIOS DE APOYO',
       'EXPLOTACION DE CRIADEROS DE PECES, GRANJAS PISCICOLAS Y OTROS FRUTOS ACUATICOS (ACUICULTURA)',
       'EXTRACCION Y AGLOMERACION DE LIGNITO',
       'EXTRACCION Y AGLOMERACION DE CARBON', 'EXTRACCION DE GAS NATURAL',
       'EXTRACCION DE PETROLEO CRUDO',
       'EXTRACCION DE MINERALES METALIFEROS NO FERROSOS',
       'EXTRACCION DE MINERALES DE HIERRO',
       'EXTRACCION DE PIEDRA, ARENA Y ARCILLAS',
       'EXPLOTACION DE MINAS Y CANTERAS NCP',
       'SERVICIOS DE APOYO PARA LA EXTRACCION DE PETROLEO Y GAS NATURAL',
       'SERVICIOS DE APOYO PARA LA MINERIA, EXCE

In [11]:
pd.unique(clae.clae2_desc)

array(['Agricultura, ganadería, caza y servicios relacionados',
       'Silvicultura y explotación forestal', 'Pesca y acuicultura',
       'Extracción de carbón y lignito',
       'Extracción de petróleo crudo y gas natural',
       'Extracción de minerales metálicos',
       'Extracción de otros minerales',
       'Actividades de apoyo al petróleo y la minería',
       'Elaboración de productos alimenticios', 'Elaboración de bebidas',
       'Elaboración de productos de tabaco',
       'Elaboración de productos textiles',
       'Elaboración de prendas de vestir',
       'Elaboración de productos de cuero y calzado',
       'Elaboración de productos de madera',
       'Elaboración de productos de papel', 'Imprentas y editoriales',
       'Fabricación de productos de refinación de petróleo',
       'Fabricación de sustancias químicas',
       'Elaboracion de productos farmacéuticos',
       'Fabricación de productos de caucho y plástico',
       'Fabricación de productos de vidrio y o

In [12]:
pd.unique(clae.letra_desc)

array([' AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y PESCA',
       'EXPLOTACION DE MINAS Y CANTERAS', ' INDUSTRIA MANUFACTURERA',
       ' SUMINISTRO DE ELECTRICIDAD, GAS, VAPOR Y AIRE ACONDICIONADO',
       ' SUMINISTRO DE AGUA; CLOACAS; GESTIÓN DE RESIDUOS Y RECUPERACIÓN DE MATERIALES Y SANEAMIENTO PUBLICO',
       ' CONSTRUCCIÓN',
       ' COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACIÓN DE VEHÍCULOS AUTOMOTORES Y MOTOCICLETAS',
       ' SERVICIO DE TRANSPORTE Y ALMACENAMIENTO ',
       ' SERVICIOS DE ALOJAMIENTO Y SERVICIOS DE COMIDA',
       ' INFORMACIÓN Y COMUNICACIONES',
       ' INTERMEDIACIÓN FINANCIERA Y SERVICIOS DE SEGUROS ',
       ' SERVICIOS INMOBILIARIOS',
       ' SERVICIOS PROFESIONALES, CIENTÍFICOS Y TÉCNICOS',
       ' ACTIVIDADES ADMINISTRATIVAS Y SERVICIOS DE APOYO',
       ' ADMINISTRACION PUBLICA, DEFENSA Y SEGURIDAD SOCIAL OBLIGATORIA',
       ' ENSEÑANZA', ' SALUD HUMANA Y SERVICIOS SOCIALES',
       ' SERVICIOS  ARTÍSTICOS, CULTURALES, DEPORTIVOS  Y DE ESP

In [13]:
clae.letra_desc = clae.letra_desc.apply(organizar_string)

In [14]:
pd.unique(clae.letra_desc)

array(['AGRICULTURA, GANADERIA, CAZA, SILVICULTURA Y PESCA',
       'EXPLOTACION DE MINAS Y CANTERAS', 'INDUSTRIA MANUFACTURERA',
       'SUMINISTRO DE ELECTRICIDAD, GAS, VAPOR Y AIRE ACONDICIONADO',
       'SUMINISTRO DE AGUA; CLOACAS; GESTION DE RESIDUOS Y RECUPERACION DE MATERIALES Y SANEAMIENTO PUBLICO',
       'CONSTRUCCION',
       'COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACION DE VEHICULOS AUTOMOTORES Y MOTOCICLETAS',
       'SERVICIO DE TRANSPORTE Y ALMACENAMIENTO',
       'SERVICIOS DE ALOJAMIENTO Y SERVICIOS DE COMIDA',
       'INFORMACION Y COMUNICACIONES',
       'INTERMEDIACION FINANCIERA Y SERVICIOS DE SEGUROS',
       'SERVICIOS INMOBILIARIOS',
       'SERVICIOS PROFESIONALES, CIENTIFICOS Y TECNICOS',
       'ACTIVIDADES ADMINISTRATIVAS Y SERVICIOS DE APOYO',
       'ADMINISTRACION PUBLICA, DEFENSA Y SEGURIDAD SOCIAL OBLIGATORIA',
       'ENSEÑANZA', 'SALUD HUMANA Y SERVICIOS SOCIALES',
       'SERVICIOS ARTISTICOS, CULTURALES, DEPORTIVOS Y DE ESPARCIMIENTO',
       '

In [15]:
clae[clae.clae2 == 99].shape

(0, 8)

In [16]:
## Asumo que es un error que figure 999 como clae2 y corresponde a 99

In [17]:
clae['clae2'] = clae['clae2'].apply(lambda x: 99 if x == 999 else x)

## INDEC

In [18]:
ruta = ".\TablasOriginales\localidad_bahra.csv"
indec = pd.read_csv(ruta, encoding='UTF-8')

In [19]:
indec.head()

Unnamed: 0,FID,gid,nombre_geografico,tipo_asentamiento,codigo_asentamiento,nombre_aglomerado,codigo_aglomerado,nombre_departamento,codigo_indec_departamento,nombre_provincia,codigo_indec_provincia,latitud_grado_decimal,longitud_grado_decimal,latitud_grado_sexagecimal,longitud_grado_sexagecimal,fuente_de_captura,geom
0,localidad_bahra.2555,2555,Reta,Localidad simple,6833070,Reta,2086.0,Tres Arroyos,6833,Buenos Aires,6,-38.894894,-60.344858,"-38º53'42""","-60º20'41""",INDEC,MULTIPOINT ((-60.34485806432177 -38.8948939829...
1,localidad_bahra.3528,3528,Olaeta,Localidad simple,14056120,Olaeta,2306.0,Juárez Celman,14056,Córdoba,14,-33.044761,-63.906067,"-33º 2'41""","-63º54'22""",INDEC,MULTIPOINT ((-63.906066644628076 -33.044761448...
2,localidad_bahra.4671,4671,Tabay,Localidad simple,18028030,Tabay,2511.0,Concepción,18028,Corrientes,18,-28.308136,-58.286866,"-28º18'29""","-58º17'13""",INDEC,MULTIPOINT ((-58.286865633583844 -28.308135912...
3,localidad_bahra.9740,9740,Zapala,Localidad simple,58112040,Zapala,97.0,Zapala,58112,Neuquén,58,-38.902934,-70.064211,"-38º54'11""","-70º 3'51""",INDEC,MULTIPOINT ((-70.06421121666217 -38.9029343545...
4,localidad_bahra.7,7,Rojas,Localidad simple,6686060,Rojas,151.0,Rojas,6686,Buenos Aires,6,-34.197742,-60.733701,"-34º11'52""","-60º44' 1""",INDEC,MULTIPOINT ((-60.73370069504291 -34.1977424290...


In [20]:
indec.columns

Index(['FID', 'gid', 'nombre_geografico', 'tipo_asentamiento',
       'codigo_asentamiento', 'nombre_aglomerado', 'codigo_aglomerado',
       'nombre_departamento', 'codigo_indec_departamento', 'nombre_provincia',
       'codigo_indec_provincia', 'latitud_grado_decimal',
       'longitud_grado_decimal', 'latitud_grado_sexagecimal',
       'longitud_grado_sexagecimal', 'fuente_de_captura', 'geom'],
      dtype='object')

In [21]:
indec = indec[['gid','nombre_geografico','nombre_departamento','codigo_indec_departamento','codigo_indec_provincia','nombre_provincia']]
indec.head()

Unnamed: 0,gid,nombre_geografico,nombre_departamento,codigo_indec_departamento,codigo_indec_provincia,nombre_provincia
0,2555,Reta,Tres Arroyos,6833,6,Buenos Aires
1,3528,Olaeta,Juárez Celman,14056,14,Córdoba
2,4671,Tabay,Concepción,18028,18,Corrientes
3,9740,Zapala,Zapala,58112,58,Neuquén
4,7,Rojas,Rojas,6686,6,Buenos Aires


In [22]:
indec.shape

(3528, 6)

In [23]:
columnas_sin_gid = indec.columns[indec.columns != 'gid']

In [24]:
### observo que hay dos localidades que le corresponden los mismos nombres, departamento y provincia
### asumo valores duplicados

indec.groupby(by=list(columnas_sin_gid)).count().sort_values(by='gid', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,gid
nombre_geografico,nombre_departamento,codigo_indec_departamento,codigo_indec_provincia,nombre_provincia,Unnamed: 5_level_1
Villa Libertad,Leandro N. Alem,54070,54,Misiones,2
Barrio La Costa,General Roca,62042,62,Río Negro,2
11 de Octubre,Confluencia,58035,58,Neuquén,1
Pascanas,Unión,14182,14,Córdoba,1
Pasco,General San Martín,14042,14,Córdoba,1
...,...,...,...,...,...
Estación Arenales,General Arenales,06294,6,Buenos Aires,1
Estación Arroyo Clé,Tala,30091,30,Entre Ríos,1
Estación Aráoz,Leales,90056,90,Tucumán,1
Estación Atamisqui,Atamisqui,86021,86,Santiago del Estero,1


In [25]:
indec.drop_duplicates(subset=columnas_sin_gid, inplace=True)
indec.shape

(3526, 6)

In [26]:
indec.isna().sum()

gid                          0
nombre_geografico            0
nombre_departamento          0
codigo_indec_departamento    0
codigo_indec_provincia       0
nombre_provincia             0
dtype: int64

In [27]:
indec.dtypes

gid                           int64
nombre_geografico            object
nombre_departamento          object
codigo_indec_departamento    object
codigo_indec_provincia        int64
nombre_provincia             object
dtype: object

In [28]:
indec.nombre_provincia.value_counts()

Buenos Aires              593
Córdoba                   523
Santa Fe                  383
Entre Ríos                169
Santiago del Estero       165
Catamarca                 154
Mendoza                   152
Jujuy                     151
Río Negro                 149
Misiones                  139
Salta                     130
Tucumán                    98
Chaco                      91
La Pampa                   89
San Luis                   85
San Juan                   82
Corrientes                 77
La Rioja                   73
Chubut                     68
Formosa                    62
Neuquén                    60
Santa Cruz                 27
Tierra del Fuego            5
Ciudad de Buenos Aires      1
Name: nombre_provincia, dtype: int64

In [29]:
for columna in ['nombre_geografico','nombre_departamento','nombre_provincia']:
    indec[columna] = indec[columna].apply(organizar_string)

In [30]:
indec.groupby(by=list(columnas_sin_gid)).count().sort_values(by='gid', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,gid
nombre_geografico,nombre_departamento,codigo_indec_departamento,codigo_indec_provincia,nombre_provincia,Unnamed: 5_level_1
11 DE OCTUBRE,CONFLUENCIA,58035,58,NEUQUEN,1
PASO DE LA PATRIA,SAN COSME,18133,18,CORRIENTES,1
PARERA,RANCUL,42126,42,LA PAMPA,1
PARQUE CALMAYO,CALAMUCHITA,14007,14,CORDOBA,1
PARQUE NORTE - CIUDAD DE LOS NIÑOS - GUIÑAZU NORTE,COLON,14021,14,CORDOBA,1
...,...,...,...,...,...
ESQUINA,RIO PRIMERO,14105,14,CORDOBA,1
ESQUINA DEL ALAMBRE,ISCHILIN,14049,14,CORDOBA,1
ESQUIU,LA PAZ,10070,10,CATAMARCA,1
ESTACION APOSTOLES,APOSTOLES,54007,54,MISIONES,1


In [31]:
indec.nombre_provincia = indec.nombre_provincia.apply(lambda x: 'CIUDAD AUTONOMA DE BUENOS AIRES' if x == 'CIUDAD DE BUENOS AIRES' else x)

In [32]:
indec.nombre_departamento[indec.nombre_provincia == 'CIUDAD AUTONOMA DE BUENOS AIRES']

3526    COMUNA 1,COMUNA 10,COMUNA 11,COMUNA 12,COMUNA ...
Name: nombre_departamento, dtype: object

In [33]:
indec.codigo_indec_departamento[indec.nombre_provincia == 'CIUDAD AUTONOMA DE BUENOS AIRES']

3526    02001,02002,02003,02004,02005,02006,02007,0200...
Name: codigo_indec_departamento, dtype: object

In [34]:
indec.codigo_indec_provincia[indec.nombre_provincia == 'CIUDAD AUTONOMA DE BUENOS AIRES']

3526    2
Name: codigo_indec_provincia, dtype: int64

In [35]:
indec.codigo_indec_departamento[indec.codigo_indec_departamento == 2]

Series([], Name: codigo_indec_departamento, dtype: object)

In [36]:
indec.codigo_indec_departamento[3526] = '2'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  indec.codigo_indec_departamento[3526] = '2'


In [37]:
indec.nombre_departamento[3526] = 'CIUDAD AUTONOMA DE BUENOS AIRES'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  indec.nombre_departamento[3526] = 'CIUDAD AUTONOMA DE BUENOS AIRES'


In [38]:
indec['codigo_indec_departamento'] = indec.codigo_indec_departamento.astype('int')

In [39]:
departamentos_indec = set()

for _, tupla_relacion in indec[['nombre_departamento',	'codigo_indec_departamento',	'codigo_indec_provincia',	'nombre_provincia']].iterrows():
    provincia, departamento = tupla_relacion['nombre_provincia'], tupla_relacion['nombre_departamento']
    departamentos_indec.add((provincia, departamento))

departamentos_indec = pd.DataFrame(departamentos_indec, columns = ['provincia', 'departamento'])
departamentos_indec = departamentos_indec.sort_values(by=['provincia', 'departamento']).reset_index(drop=True)
departamentos_indec.head()

Unnamed: 0,provincia,departamento
0,BUENOS AIRES,25 DE MAYO
1,BUENOS AIRES,9 DE JULIO
2,BUENOS AIRES,ADOLFO ALSINA
3,BUENOS AIRES,ADOLFO GONZALES CHAVES
4,BUENOS AIRES,ALBERTI


## Dataset Operadores orgánicos

In [40]:
ruta = ".\TablasOriginales\padron-de-operadores-organicos-certificados.csv"
org = pd.read_csv(ruta, encoding='ISO-8859-1')

In [41]:
org.head()

Unnamed: 0,pais_id,pais,provincia_id,provincia,departamento,localidad,rubro,productos,categoria_id,categoria_desc,Certificadora_id,certificadora_deno,razón social,establecimiento
0,32,ARGENTINA,6,BUENOS AIRES,BARADERO,INDEFINIDA,AGRICULTURA,SOJA,1,Productores,2,OIA S.A.,ADD CROPS S.A.,BARADERO 1
1,32,ARGENTINA,6,BUENOS AIRES,BARADERO,INDEFINIDA,AGRICULTURA,"GIRASOL, MIJO, RESIDUO VEGETAL",1,Productores,2,OIA S.A.,ADD CROPS S.A.,BARADERO 2
2,32,ARGENTINA,6,BUENOS AIRES,BARADERO,INDEFINIDA,AGRICULTURA,"MAIZ, AVENA, CAMPO NATURAL",1,Productores,2,OIA S.A.,ADD CROPS S.A.,EL BUEN RETIRO
3,32,ARGENTINA,6,BUENOS AIRES,AZUL,INDEFINIDA,AGRICULTURA,"SOJA, ALPISTE",1,Productores,3,Letis S.A.,AGRICOLA EL HORIZONTE S.A.,EL RELINCHO
4,32,ARGENTINA,6,BUENOS AIRES,AZUL,INDEFINIDA,AGRICULTURA,"SOJA, ALPISTE, TRIGO",1,Productores,3,Letis S.A.,AGRICOLA EL HORIZONTE S.A.,EL HORIZONTE


In [42]:
org.shape

(1395, 14)

In [43]:
org.columns

Index(['pais_id', 'pais', 'provincia_id', 'provincia', 'departamento',
       'localidad', 'rubro', 'productos', 'categoria_id', 'categoria_desc',
       'Certificadora_id', 'certificadora_deno', 'razón social',
       'establecimiento'],
      dtype='object')

In [44]:
# Para poder decir que una tabla está en Primera Forma Normal, debe ésta satisfacer que
# todos los valores que tienen en sus columnas son atómicos. Mas basta ver "productos" en ésta para darnos
# cuenta que no es el caso, hay varios registros con múltiples valores separados por coma o algún otro
# signo en esta columna.
# Por lo tanto, no se encuentra en 1FN. Luego, tampoco en 2FN, 3FN o FNBC.
# No se encuentra en ninguna de las formas normales que conocemos.

In [45]:
org.info()

# Los ids son de tipo int, mientras que el resto de columnas tienen el tipo object (string),
# como uno podría esperar.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1395 entries, 0 to 1394
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   pais_id             1395 non-null   int64 
 1   pais                1395 non-null   object
 2   provincia_id        1395 non-null   int64 
 3   provincia           1395 non-null   object
 4   departamento        1395 non-null   object
 5   localidad           1395 non-null   object
 6   rubro               1390 non-null   object
 7   productos           1393 non-null   object
 8   categoria_id        1395 non-null   int64 
 9   categoria_desc      1395 non-null   object
 10  Certificadora_id    1395 non-null   int64 
 11  certificadora_deno  1395 non-null   object
 12  razón social        1395 non-null   object
 13  establecimiento     1395 non-null   object
dtypes: int64(4), object(10)
memory usage: 152.7+ KB


In [46]:
# Veo que solo 7 elementos de todo el Dataframe son nulos. 
# Se encuentran en las columnas rubro y productos. Los descartamos.

org.isna().sum()

pais_id               0
pais                  0
provincia_id          0
provincia             0
departamento          0
localidad             0
rubro                 5
productos             2
categoria_id          0
categoria_desc        0
Certificadora_id      0
certificadora_deno    0
razón social          0
establecimiento       0
dtype: int64

In [47]:
org = org.dropna(axis='index')

In [48]:
# Pero viendo un poco el dataset a mano, se ve que hay "INDEFINIDO" o "NC" como valores para algunas
# celdas. Veamos con qué frecuencia aparecen aquellos en distintas columnas.

In [49]:
# Columna pais


org["pais"].value_counts()

# los 1935 campos son ARGENTINA, no tiene datos faltantes.
# Para nuestro trabajo, probablemente podriamos prescindir de esta columna y
# pais_id, pues no aportan mayor información. Por ahora las dejamos.


ARGENTINA    1390
Name: pais, dtype: int64

In [50]:
org = org.drop(columns='pais')

In [51]:
for columna in ['provincia', 'departamento']:
    org[columna] = org[columna].apply(organizar_string)

In [52]:
# Columna provincia


org["provincia"].value_counts()


# Están todas las provincia y CABA, los 24 posibles valores. No hay nulos ni problemas con signos de
# puntuación o semejante.


MISIONES                        222
MENDOZA                         217
BUENOS AIRES                    208
RIO NEGRO                       167
NEUQUEN                          70
CHUBUT                           55
ENTRE RIOS                       51
LA RIOJA                         50
SAN JUAN                         48
SALTA                            46
CIUDAD AUTONOMA BUENOS AIRES     44
TUCUMAN                          43
CORDOBA                          38
SANTA FE                         27
JUJUY                            21
CATAMARCA                        15
CHACO                            14
SANTA CRUZ                       14
CORRIENTES                       12
SANTIAGO DEL ESTERO              11
SAN LUIS                          6
TIERRA DEL FUEGO                  5
LA PAMPA                          3
FORMOSA                           3
Name: provincia, dtype: int64

In [53]:
# Columna departamento

org["departamento"].value_counts()

# No se ve nada extraño de momento, veamos si hay algún problema con la puntuación, tildes...

SAN JAVIER                      186
GENERAL ROCA                     97
CIUDAD AUTONOMA BUENOS AIRES     44
LUJAN DE CUYO                    41
CONFLUENCIA                      32
                               ... 
CALINGASTA                        1
CHAÑAR                            1
ANGACO                            1
PASO DE INDIOS                    1
AGUILARES                         1
Name: departamento, Length: 353, dtype: int64

In [54]:
valores_unicos_ordenados = sorted(org["departamento"].unique())
len(valores_unicos_ordenados)

# Hay 353 valores.

353

In [55]:
# Noté que había un elemento 'INDEFINIDO', quiero ver cuántas veces aparece.


indefinidos_depto = org["departamento"].value_counts().loc["INDEFINIDO"]
print("Hay " + str(indefinidos_depto) + " elementos con valor INDEFINIDO")


Hay 1 elementos con valor INDEFINIDO


In [56]:
# Son solo 1 de 1395. Por más que la columna 'departamento' sea de interés para el objetivo del trabajo,
# considero que no es recuperable y por la poca cantidad descartamos las observaciones.


filtro = org["departamento"] != "INDEFINIDO"
org = org[filtro]

In [57]:
def problema_encoding(caracteres:str):

    LETRAS = string.ascii_letters + string.digits + ' '
    i = 0
    while i < len(caracteres) and caracteres[i] in LETRAS:
        i += 1

    return i == len(caracteres)

In [58]:
codificacion = org.departamento.apply(problema_encoding)
codificacion.value_counts()

True     1325
False      64
Name: departamento, dtype: int64

In [59]:
## Los siguientes departamentos tienen problemas de signo de puntuacion. Probablemente no coindcidan
## con los nombres dados por indec

org.departamento[~codificacion].unique()

array(['CAÑUELAS', 'JUAN A. PRADERE', 'BAÑADO DE OVANTA', 'ALTE. BROWN',
       'GENERAL GÜEMES', 'PASO DE LOS INDIOS, GASTRE Y TEHUELCHES',
       'LANGUIÑEO', 'GAIMAN (BAHIA BUSTAMANTE)', 'CHAÑAR', '1º DE MAYO',
       'DEPTO. EL CARMEN', 'DTO. CAPITAL', 'MALARGÜE', 'AÑELO',
       'SAN PATRICIO DEL CAÑAR', 'SAN PATRICIO DEL CHAÑAR',
       'GENERAL E. GODOY', 'GÜEMES', 'GÜER AIKE',
       'DEPTO LAGO ARGENTINO (ZONA RURAL)', 'LAGO BS. AS.',
       'CAP. BERMUDEZ', 'SIERRA DE LA VENTANA / CNEL SUAREZ',
       'LUGANO CAP.FED', 'LIBERTAD/DISTR. RIVADAVIA', 'POSADAS / OBERA'],
      dtype=object)

In [60]:
## verificamos que los departamentos de cada provincia coincidan con sus nombres indec
## encontramos aun mas problemas que los previstos

problemas = []

for _, tupla_relacion in org[['provincia','departamento']].drop_duplicates().iterrows():
    provincia = tupla_relacion['provincia']
    departamento = tupla_relacion['departamento']
    verificacion = departamentos_indec[(departamentos_indec.provincia == provincia) & (departamentos_indec.departamento == departamento)]
    if len(verificacion) == 0:
        print(f'El departamento {departamento} de la provincia de {provincia} no se registra en la base de indec. Verificar escritura')
        problemas.append((provincia, departamento))

f'{len(problemas)} problemas encontrados.'

El departamento CARMEN DE PATAGONES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento LOS CARDALES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento DARREGUEIRA de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento GENERAL MADARIAGA de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento PARADA ROBLES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento MAR DEL PLATA de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento VILLALONGA de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento JUAN A. PRADERE de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento ALVEAR de la provincia de BUENOS A

'204 problemas encontrados.'

In [61]:
### pareciera haber problemas, e.g.Sabemos que en realidad Carmen de Patagones es una localidad del departamento Patagones, y figura como departamento Carmen de Patagones

In [62]:
# Hacemos un dataset con los nombres con problemas

problemas = pd.DataFrame(problemas, columns=['nombre_provincia','nombre_geografico'])
problemas.head()

Unnamed: 0,nombre_provincia,nombre_geografico
0,BUENOS AIRES,CARMEN DE PATAGONES
1,BUENOS AIRES,LOS CARDALES
2,BUENOS AIRES,DARREGUEIRA
3,BUENOS AIRES,GENERAL MADARIAGA
4,BUENOS AIRES,PARADA ROBLES


In [63]:
problemas.shape

(204, 2)

In [64]:
### por el correspondiente en el dataset de indec.

nombres_correctos = pd.merge(problemas, indec[['nombre_provincia','nombre_geografico','nombre_departamento']], on = ['nombre_provincia','nombre_geografico'], how = 'left')
nombres_correctos.head()

Unnamed: 0,nombre_provincia,nombre_geografico,nombre_departamento
0,BUENOS AIRES,CARMEN DE PATAGONES,PATAGONES
1,BUENOS AIRES,LOS CARDALES,CAMPANA
2,BUENOS AIRES,LOS CARDALES,EXALTACION DE LA CRUZ
3,BUENOS AIRES,DARREGUEIRA,PUAN
4,BUENOS AIRES,GENERAL MADARIAGA,


In [65]:
# Observo que hay departamentos repetidos y sospecho que hay localidades homonimas en distintos departamentos en la base de indec
# esto puede confimarse facilmente

indec[indec.nombre_geografico == 'LOS CARDALES']

Unnamed: 0,gid,nombre_geografico,nombre_departamento,codigo_indec_departamento,codigo_indec_provincia,nombre_provincia
91,978,LOS CARDALES,CAMPANA,6126,6,BUENOS AIRES
192,1315,LOS CARDALES,EXALTACION DE LA CRUZ,6266,6,BUENOS AIRES


In [66]:
## elimino duplicados, no puedo inferir el correcto

nombres_correctos = nombres_correctos.drop_duplicates(subset=['nombre_provincia','nombre_geografico'], keep=False)
nombres_correctos.head()

Unnamed: 0,nombre_provincia,nombre_geografico,nombre_departamento
0,BUENOS AIRES,CARMEN DE PATAGONES,PATAGONES
3,BUENOS AIRES,DARREGUEIRA,PUAN
4,BUENOS AIRES,GENERAL MADARIAGA,
5,BUENOS AIRES,PARADA ROBLES,
6,BUENOS AIRES,MAR DEL PLATA,GENERAL PUEYRREDON


In [67]:
## de los 203 departamentos con problemas, puedo solucionar 114 y quedarian pendientes 89

print(nombres_correctos.notnull().sum())

nombres_correctos.shape[0] - nombres_correctos.notnull().sum()

nombre_provincia       203
nombre_geografico      203
nombre_departamento    114
dtype: int64


nombre_provincia        0
nombre_geografico       0
nombre_departamento    89
dtype: int64

In [68]:
for indice, tupla_relacion in org[['provincia','departamento']].iterrows():
    provincia = tupla_relacion['provincia']
    departamento = tupla_relacion['departamento']
    
    verificacion = indec[(indec.nombre_provincia == provincia) & (indec.nombre_departamento == departamento)]
    datos_correctos = nombres_correctos['nombre_departamento'][(nombres_correctos.nombre_provincia == provincia) & (nombres_correctos.nombre_geografico == departamento)]
    hay_solucion = np.sum(datos_correctos.notnull()) > 0

    if len(verificacion) == 0 and hay_solucion:

        org.loc[indice, 'departamento'] = datos_correctos.iloc[0]

In [69]:
## verificamos que los departamentos de cada provincia coincidan con sus nombres indec
## encontramos aun mas problemas que los previstos

problemas = []

for _, tupla_relacion in org[['provincia','departamento']].drop_duplicates().iterrows():
    provincia = tupla_relacion['provincia']
    departamento = tupla_relacion['departamento']
    verificacion = departamentos_indec[(departamentos_indec.provincia == provincia) & (departamentos_indec.departamento == departamento)]
    if len(verificacion) == 0:
        print(f'El departamento {departamento} de la provincia de {provincia} no se registra en la base de indec. Verificar escritura')
        problemas.append((provincia, departamento))

f'{len(problemas)} problemas encontrados.'

El departamento LOS CARDALES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento GENERAL MADARIAGA de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento PARADA ROBLES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento ALVEAR de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento OPEN DOOR de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento MONTE GRANDE de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento PIGUE de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento ALEJANDRO KORN de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento VERGARA de la provincia de BUENOS AIRES no se registra e

'90 problemas encontrados.'

In [70]:
### vimos que había 89 departamentos con problemas, observamos que esto equivale a 90 registros de tabla

In [71]:
## transformamos en Dataset

problemas = pd.DataFrame(problemas, columns=['nombre_provincia','nombre_geografico'])
problemas.head()

Unnamed: 0,nombre_provincia,nombre_geografico
0,BUENOS AIRES,LOS CARDALES
1,BUENOS AIRES,GENERAL MADARIAGA
2,BUENOS AIRES,PARADA ROBLES
3,BUENOS AIRES,ALVEAR
4,BUENOS AIRES,OPEN DOOR


In [72]:
## Hay problema con CIUDAD DE BUENOS AIRES, segun puedo observar

indec[['nombre_provincia','codigo_indec_provincia']].drop_duplicates().loc[3526]['nombre_provincia']

'CIUDAD AUTONOMA DE BUENOS AIRES'

In [73]:
### ciudad autonoma de buenos aires esta mal escrito

org['departamento'] = org['departamento'].apply(lambda x: 'CIUDAD AUTONOMA DE BUENOS AIRES' if x == 'CIUDAD AUTONOMA BUENOS AIRES' else x)
org['provincia'] = org['provincia'].apply(lambda x: 'CIUDAD AUTONOMA DE BUENOS AIRES' if x == 'CIUDAD AUTONOMA BUENOS AIRES' else x)

In [74]:
problemas = []

for _, tupla_relacion in org[['provincia','departamento']].drop_duplicates().iterrows():
    provincia = tupla_relacion['provincia']
    departamento = tupla_relacion['departamento']
    verificacion = departamentos_indec[(departamentos_indec.provincia == provincia) & (departamentos_indec.departamento == departamento)]
    if len(verificacion) == 0:
        print(f'El departamento {departamento} de la provincia de {provincia} no se registra en la base de indec. Verificar escritura')
        problemas.append((provincia, departamento))

f'{len(problemas)} problemas encontrados.'

El departamento LOS CARDALES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento GENERAL MADARIAGA de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento PARADA ROBLES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento ALVEAR de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento OPEN DOOR de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento MONTE GRANDE de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento PIGUE de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento ALEJANDRO KORN de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento VERGARA de la provincia de BUENOS AIRES no se registra e

'89 problemas encontrados.'

In [75]:
## habiamos inferido problemas en 89 nombres de departamento veamos que corresponden a 128 registros
## los dropeamos

indices = []

for indice, tupla_relacion in org[['provincia','departamento']].iterrows():
    provincia = tupla_relacion['provincia']
    departamento = tupla_relacion['departamento']
    verificacion = departamentos_indec[(departamentos_indec.provincia == provincia) & (departamentos_indec.departamento == departamento)]
    if len(verificacion) == 0:
        print(f'El departamento {departamento} de la provincia de {provincia} no se registra en la base de indec. Verificar escritura')
        indices.append(indice)

f'{len(indices)} registros con los problemas anteriores.'

El departamento LOS CARDALES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento GENERAL MADARIAGA de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento PARADA ROBLES de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento ALVEAR de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento OPEN DOOR de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento ALVEAR de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento MONTE GRANDE de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento PIGUE de la provincia de BUENOS AIRES no se registra en la base de indec. Verificar escritura
El departamento ALEJANDRO KORN de la provincia de BUENOS AIRES no se registra en

'128 registros con los problemas anteriores.'

In [76]:
org.shape

(1389, 13)

In [77]:
## por cantidad y no disponer de datos para arreglar, dropeamos

org.drop(labels=indices, axis=0, inplace=True)

In [78]:
org.shape

(1261, 13)

In [79]:
problemas = []

for indice, tupla_relacion in org[['provincia','departamento']].iterrows():
    provincia = tupla_relacion['provincia']
    departamento = tupla_relacion['departamento']
    verificacion = departamentos_indec[(departamentos_indec.provincia == provincia) & (departamentos_indec.departamento == departamento)]
    if len(verificacion) == 0:
        print(f'El departamento {departamento} de la provincia de {provincia} no se registra en la base de indec. Verificar escritura')
        indices.append(indice)

f'{len(problemas)} problemas encontrados.'

'0 problemas encontrados.'

In [80]:
# Columna localidad
org["localidad"].value_counts()


# Hay muchísimos valores 'INDEFINIDA' e 'INDEFINIDO'. 1344 de 1392, ¿Qué hacer con esto?
# Nosotros queremos ver si existe alguna relación entre la producción orgánica y la proporción de
# mujeres empleadas en cada uno de los establecimientos de los departamentos de las provincias y/o departamentos
# ¿Necesitamos saber la localidad? Dado nuestro objetivo, parece que no, por lo que podemos deshacernos
# de esta columna.

INDEFINIDA              880
INDEFINIDO              335
AGRELO                    3
RODEO DEL MEDIO           2
PEDRIEL                   2
PLA                       1
CONQUIMBITO               1
UGARTECHE                 1
ALGARROBO GRANDE          1
COQUIMBITOM               1
LOS CORRALITOS            1
VISTA FLORES              1
LA PRIMAVERA              1
RAMA CAIDA                1
ALTO SALVADOR             1
CENTENARIO                1
CORONEL MOLLINEDO         1
LA PUNTILLA               1
PARQUE LELOIR             1
DORREGO                   1
SAN JOSE                  1
CHAÑAR PUNCO              1
LAGUNA DE LOS PADRES      1
LIMA                      1
PERDRIEL                  1
RIO TALA                  1
17 DE AGOSTO              1
BORDENAVE                 1
LOS CARDALES              1
FRAY LUIS BELTRAN         1
COLONIA LOPEZ             1
EL MIRADOR                1
LOS CHACAYES              1
RUSSELL                   1
SIERRA DE LOS PADRES      1
LA CONSULTA         

In [81]:
org.drop("localidad", axis=1, inplace=True)

In [82]:
## Columna rubro

org.rubro.unique()

array(['AGRICULTURA', 'FRUTICULTURA/HORTICULTURA', 'GANADERIA',
       'HORTICULTURA', 'FRUTICULTURA', 'AGRICULTURA/GANADERIA',
       'APICULTURA', 'AGICULTURA/HORTICULTURA', 'RECOLECCION SILVESTRE',
       'AGICULTURA/FRUTICULTURA', 'FRUTICULTURA/AGRICULTURA',
       'GANADERIA/FRUTICULTURA', 'PRODUCTOS PARA EL CUIDADO PERSONAL',
       'PROCESAMIENTO APICOLA', 'PROCESAMIENTO FRUTALES Y HORTALIZAS',
       'PROCESAMIENTO CEREALES Y OLEAGINOSAS',
       'ACOPIO Y ACONDICIONAMIENTO DE GRANOS',
       'ELABORACION Y EXTRACCION DE ACEITE',
       'PROCESAMIENTO CULTIVOS INDUSTRIALES',
       'INDUSTRIALIZACION DE YERBA MATE', 'FRACCIONAMIENTO DE MIEL',
       'FRACCIONAMIENTO DE TE, YERBA MATE', 'OTROS',
       'EMPAQUE DE FRUTAS NO CITRICAS', 'INDUSTRIA LACTEA',
       'ALIMENTACION ANIMAL', 'ACONDICIONAMIENTO Y EMPAQUE',
       'FRIGORIFICOS Y EMPAQUE PARA  FRUTAS', 'ELABORACION GRANOS',
       'LIMPIEZA DE GRANOS', 'ELABORACION', 'EMPAQUE DE HORTALIZAS',
       'ELABORACION ', 'BODEGA

In [83]:
# quisieramos transformar lo anterior en estándar clae2. Miramos en conjunto categoria_desc para distinguir el contexto del rubro
# y poder decidir una actividad

In [84]:
org.categoria_desc.unique()

array(['Productores', 'Elaboradores', 'Comercializadores'], dtype=object)

In [85]:
# para cada nivel de categoria_desc nos fijamos el rubro del productor orgánico

In [86]:
org.rubro[org.categoria_desc == 'Productores'].unique()

array(['AGRICULTURA', 'FRUTICULTURA/HORTICULTURA', 'GANADERIA',
       'HORTICULTURA', 'FRUTICULTURA', 'AGRICULTURA/GANADERIA',
       'APICULTURA', 'AGICULTURA/HORTICULTURA', 'RECOLECCION SILVESTRE',
       'AGICULTURA/FRUTICULTURA', 'FRUTICULTURA/AGRICULTURA',
       'GANADERIA/FRUTICULTURA'], dtype=object)

In [87]:
### Tomamos la siguiente regla de decision para productores:

dicc_clae2_rubro = {'AGRICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'FRUTICULTURA/HORTICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'GANADERIA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'HORTICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'FRUTICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'AGRICULTURA/GANADERIA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'APICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'AGICULTURA/HORTICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'RECOLECCION SILVESTRE': 'Agricultura, ganadería, caza y servicios relacionados',
                          'AGICULTURA/FRUTICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'FRUTICULTURA/AGRICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'GANADERIA/FRUTICULTURA': 'Agricultura, ganadería, caza y servicios relacionados',
                          'ACUICULTURA': 'Pesca y acuicultura'
                          } 


In [88]:
## repetimos para Elaboradores

org.rubro[org.categoria_desc == 'Elaboradores'].unique()

array(['PRODUCTOS PARA EL CUIDADO PERSONAL', 'PROCESAMIENTO APICOLA',
       'PROCESAMIENTO FRUTALES Y HORTALIZAS',
       'PROCESAMIENTO CEREALES Y OLEAGINOSAS',
       'ACOPIO Y ACONDICIONAMIENTO DE GRANOS',
       'ELABORACION Y EXTRACCION DE ACEITE',
       'PROCESAMIENTO CULTIVOS INDUSTRIALES',
       'INDUSTRIALIZACION DE YERBA MATE', 'FRACCIONAMIENTO DE MIEL',
       'FRACCIONAMIENTO DE TE, YERBA MATE', 'OTROS',
       'EMPAQUE DE FRUTAS NO CITRICAS', 'INDUSTRIA LACTEA',
       'ALIMENTACION ANIMAL', 'ACONDICIONAMIENTO Y EMPAQUE',
       'FRIGORIFICOS Y EMPAQUE PARA  FRUTAS', 'ELABORACION GRANOS',
       'LIMPIEZA DE GRANOS', 'ELABORACION', 'EMPAQUE DE HORTALIZAS',
       'ELABORACION ', 'BODEGA VITIVINICOLA', 'EXTRACCION DE ACEITE',
       'PROCESAMIENTO DE CEREALES Y OLEAGINOSAS.',
       'PROCESAMIENTO DE MANI', 'PROCESAMIENTO DE MANI Y SOJA',
       'ELABORACION DE DULCES', 'PROCESAMIENTO TEXTIL',
       'SECADO, ACONDICIONAMIENTO, ELABORACION Y ACOPIO',
       'PROCESAMIENT

In [89]:
### Tomamos la siguiente regla de decision para productores:

dicc_clae2_elaboradores = {
                            'PRODUCTOS PARA EL CUIDADO PERSONAL': 'Elaboración de productos de tabaco',
                            'PROCESAMIENTO APICOLA': 'Agricultura, ganadería, caza y servicios relacionados',
                            'PROCESAMIENTO FRUTALES Y HORTALIZAS': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO CEREALES Y OLEAGINOSAS': 'Elaboración de productos alimenticios',
                            'ACOPIO Y ACONDICIONAMIENTO DE GRANOS': 'Elaboración de productos alimenticios',
                            'ELABORACION Y EXTRACCION DE ACEITE': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO CULTIVOS INDUSTRIALES': 'Elaboración de productos alimenticios',
                            'EMPAQUE DE HORTALIZAS': 'Elaboración de productos alimenticios',
                            'INDUSTRIALIZACION DE YERBA MATE': 'Elaboración de productos alimenticios',
                            'FRACCIONAMIENTO DE MIEL': 'Elaboración de productos alimenticios',
                            'FRACCIONAMIENTO DE TE, YERBA MATE': 'Elaboración de productos alimenticios',
                            'OTROS': 'Otros sectores',
                            'EMPAQUE DE FRUTAS NO CITRICAS': 'Elaboración de productos alimenticios',
                            'INDUSTRIA LACTEA': 'Elaboración de productos alimenticios',
                            'ALIMENTACION ANIMAL': 'Elaboración de productos alimenticios',
                            'ACONDICIONAMIENTO Y EMPAQUE': 'Elaboración de productos alimenticios',
                            'PANIFICACION, GRANOS Y CEREALES, HARINAS, LEGUMBRES, YERBA MATE, AZUCAR, MIEL': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO DE TE Y MOLINO YERBA MATE': 'Elaboración de productos alimenticios',
                            'ELABORACION , FRACCIONAMIENTO Y DEPOSITO DE HIERBAS AROMATICAS Y MEDICINALES': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO DE CEREALES Y OLEAGINOSAS.': 'Elaboración de productos alimenticios',
                            'FRIGORIFICOS Y EMPAQUE PARA  FRUTAS': 'Elaboración de productos alimenticios',
                            'ELABORACION GRANOS': 'Elaboración de productos alimenticios',
                            'LIMPIEZA DE GRANOS': 'Elaboración de productos alimenticios',
                            'ELABORACION': 'Elaboración de productos alimenticios',
                            'ELABORACION, FRACCIONAMIENTO Y EMPAQUE': 'Elaboración de productos alimenticios',
                            'ACOPIO': 'Agricultura, ganadería, caza y servicios relacionados',
                            'ELABORACION ': 'Elaboración de productos alimenticios',
                            'BODEGA VITIVINICOLA': 'Elaboración de bebidas',
                            'EXTRACCION DE ACEITE': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO DE MANI': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO DE MANI Y SOJA': 'Elaboración de productos alimenticios',
                            'ELABORACION DE DULCES': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO TEXTIL': 'Elaboración de productos de cuero y calzado',
                            'SECADO, ACONDICIONAMIENTO, ELABORACION Y ACOPIO': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO PRODUCTOS ORGANICOS': 'Elaboración de productos alimenticios',
                            'EXTRACCION DE MIEL': 'Elaboración de productos alimenticios',
                            'FRACCIONAMIENTO Y EMPAQUE DE ARROZ': 'Elaboración de productos alimenticios',
                            'ELABORACION DE JUGOS CONCENTRADOS Y FABRICA DE ACEITES ESENCIALES': 'Elaboración de productos alimenticios',
                            'ELABORACION DE JUGOS CONCENTRADOS, ACEITE ESCENCIAL Y PULPA DE CITRICOS': 'Elaboración de productos alimenticios',
                            'ELABORACION DE JUGOS Y BODEGA VITIVINICOLA': 'Elaboración de bebidas',
                            'SECADERO DE FRUTAS': 'Elaboración de productos alimenticios',
                            'ELABORACION DE PASAS DE UVA': 'Elaboración de productos alimenticios',
                            'SECADO DE FRUTAS': 'Elaboración de productos alimenticios',
                            'INDUSTRIA VITIVINICOLA': 'Elaboración de bebidas',
                            'INDUSTRIALIZACION DE FRUTAS DESECADAS': 'Elaboración de productos alimenticios',
                            'ALMACENAMIENTO': 'Almacenamiento y actividades de apoyo al transporte',
                            'FRIGORIFICO PARA  MOSTO': 'Elaboración de bebidas',
                            'SECADO': 'Elaboración de productos alimenticios',
                            'FRACCIONAMIENTO DE VINO': 'Elaboración de bebidas',
                            'EXTRACCION DE ACEITE Y ELABORACION DE ACEITUNAS Y OTROS': 'Elaboración de productos alimenticios',
                            'PROCESADO Y ENVASADO DE HORTALIZAS': 'Elaboración de productos alimenticios',
                            'ELABORACION DE JUGO CONCENTRADO': 'Elaboración de productos alimenticios',
                            'ELABORACION; FRACCIONAMIENTO; EMPAQUE; ACOPIO': 'Elaboración de productos alimenticios',
                            'SECADERO , MOLINO Y FRACCIONAMIENTO DE TE, YERBA MATE': 'Elaboración de productos alimenticios',
                            'DEPOSITO DE YERBA': 'Almacenamiento y actividades de apoyo al transporte',
                            'MOLINO DE YERBA MATE': 'Elaboración de productos alimenticios',
                            'PROCESAMIENTO DE TE': 'Elaboración de productos alimenticios',
                            'EMPAQUE DE HORTALIZAS Y FRUTAS NO CITRICAS': 'Elaboración de productos alimenticios',
                            'FRIGORIFICOS PARA  FRUTAS': 'Elaboración de productos alimenticios',
                            'ELABORACION DE JUGO CONCENTRADO DE MANZANA Y PERA ': 'Elaboración de productos alimenticios',
                            'EMPAQUE Y FRIGORIFICO DE FRUTAS NO CITRICAS': 'Elaboración de productos alimenticios',
                            'ELABORACION DE ACEITE DE ROSA MOSQUETA': 'Elaboración de productos de cuero y calzado',
                            'EMPAQUE Y FRIGORIFICO FRUTAS NO CITRICAS': 'Elaboración de productos alimenticios',
                            'ELABORACION DE MANZANA Y PERA DEHIDRATADA': 'Elaboración de productos alimenticios',
                            'ALMACENAMIENTO Y FRIO PARA FRUTAS NO CITRICAS': 'Almacenamiento y actividades de apoyo al transporte',
                            'EMPAQUE FRUTAS NO CITRICAS': 'Elaboración de productos alimenticios',
                            'EMPAQUE PARA FRUTA NO CITRICA': 'Elaboración de productos alimenticios',
                            'EMPAQUE Y FRIO': 'Almacenamiento y actividades de apoyo al transporte',
                            'SECADO; PELADO; ENVASADO; ALMACENAMIENTO': 'Elaboración de productos alimenticios',
                            'BODEGA VITIVINICOLA. ELABORACION DE MOSTO CONCENTRADO DE UVAS ': 'Elaboración de bebidas',
                            'ELABORACION DE MOSTO CONCENTRADO DE UVA': 'Elaboración de bebidas',
                            'BODEGA VITIVINICOLA Y ELABORACION DE  VINAGRE, MERMELADAS, HUMUS DE LOMBRIZ': 'Elaboración de bebidas',
                            'FRACCIONAMIENTO': 'Elaboración de productos alimenticios',
                            'ELABORACION DE MOSTO CONCENTRADO': 'Elaboración de bebidas',
                            'SECADO - DESPALILLADO - EMBOLSADO': 'Elaboración de productos alimenticios',
                            'ELABORACION DE DULCES Y FRUTAS EN ALMIBAR': 'Elaboración de productos alimenticios',
                            'EXTRACCION Y FRACCIONAMIENTO DE MIEL': 'Elaboración de productos alimenticios',
                            'INDUSTRIA CARNICA': 'Elaboración de productos alimenticios',
                            'ELABORACION, FRACCIONAMIENTO, ALMACENAMIENTO, CONGELADO': 'Elaboración de productos alimenticios',
                            'INDUSTRIALIZACION DE LIMON': 'Elaboración de productos alimenticios',
                            'EMPAQUE DE PRODUCTOS DE LIMON': 'Elaboración de productos alimenticios',
                            'ELABORACION Y ENVASADO': 'Elaboración de productos alimenticios',
                            'ELABORACION DE  JUGOS CONCENTRADOS Y FABRICA DE ACEITES ESENCIALES': 'Elaboración de productos alimenticios',
}

In [90]:
# Repetimos para comercializadores

org.rubro[org.categoria_desc == 'Comercializadores'].unique()

array(['SIN DEFINIR'], dtype=object)

In [91]:
org.categoria_desc.value_counts()

Productores          894
Elaboradores         270
Comercializadores     97
Name: categoria_desc, dtype: int64

In [92]:
### En el caso de comercializadoras, como siempre es comercio y no elaboración o produccion, consideramos adecuado
### el clae2_desc 'Comercio al por mayor y al por menor y reparación de vehículos automotores y motos' dado
### que otros clae de comercio discriminan entre venta al por mayor y menor y esto no lo sabemos.

In [93]:
# Unimos los diccionarios anteriores y mapeamos considerandolos

dicc_clae2_rubro.update(dicc_clae2_elaboradores)

org['clae2_desc'] = org.rubro.map(dicc_clae2_rubro)
org['clae2_desc'].isna().sum()

97

In [94]:
# Llenamos los valores correspondientes a comercio

org['clae2_desc'] = org['clae2_desc'].fillna('Comercio al por mayor y al por menor y reparación de vehículos automotores y motos')
org['clae2_desc'].isna().sum()

0

In [95]:
org.shape

(1261, 13)

In [96]:
## a partir de clae2_desc recuperamos el clae2

org = pd.merge(org, clae[['clae2_desc', 'clae2']].drop_duplicates(), on= 'clae2_desc', how = 'left')
org.head()

Unnamed: 0,pais_id,provincia_id,provincia,departamento,rubro,productos,categoria_id,categoria_desc,Certificadora_id,certificadora_deno,razón social,establecimiento,clae2_desc,clae2
0,32,6,BUENOS AIRES,BARADERO,AGRICULTURA,SOJA,1,Productores,2,OIA S.A.,ADD CROPS S.A.,BARADERO 1,"Agricultura, ganadería, caza y servicios relac...",1
1,32,6,BUENOS AIRES,BARADERO,AGRICULTURA,"GIRASOL, MIJO, RESIDUO VEGETAL",1,Productores,2,OIA S.A.,ADD CROPS S.A.,BARADERO 2,"Agricultura, ganadería, caza y servicios relac...",1
2,32,6,BUENOS AIRES,BARADERO,AGRICULTURA,"MAIZ, AVENA, CAMPO NATURAL",1,Productores,2,OIA S.A.,ADD CROPS S.A.,EL BUEN RETIRO,"Agricultura, ganadería, caza y servicios relac...",1
3,32,6,BUENOS AIRES,AZUL,AGRICULTURA,"SOJA, ALPISTE",1,Productores,3,Letis S.A.,AGRICOLA EL HORIZONTE S.A.,EL RELINCHO,"Agricultura, ganadería, caza y servicios relac...",1
4,32,6,BUENOS AIRES,AZUL,AGRICULTURA,"SOJA, ALPISTE, TRIGO",1,Productores,3,Letis S.A.,AGRICOLA EL HORIZONTE S.A.,EL HORIZONTE,"Agricultura, ganadería, caza y servicios relac...",1


In [97]:
## a partir de clae2 recuperamos la letra del clae

org = pd.merge(org, clae[['clae2','letra']].drop_duplicates(), on= 'clae2', how='left')
org.head()

Unnamed: 0,pais_id,provincia_id,provincia,departamento,rubro,productos,categoria_id,categoria_desc,Certificadora_id,certificadora_deno,razón social,establecimiento,clae2_desc,clae2,letra
0,32,6,BUENOS AIRES,BARADERO,AGRICULTURA,SOJA,1,Productores,2,OIA S.A.,ADD CROPS S.A.,BARADERO 1,"Agricultura, ganadería, caza y servicios relac...",1,A
1,32,6,BUENOS AIRES,BARADERO,AGRICULTURA,"GIRASOL, MIJO, RESIDUO VEGETAL",1,Productores,2,OIA S.A.,ADD CROPS S.A.,BARADERO 2,"Agricultura, ganadería, caza y servicios relac...",1,A
2,32,6,BUENOS AIRES,BARADERO,AGRICULTURA,"MAIZ, AVENA, CAMPO NATURAL",1,Productores,2,OIA S.A.,ADD CROPS S.A.,EL BUEN RETIRO,"Agricultura, ganadería, caza y servicios relac...",1,A
3,32,6,BUENOS AIRES,AZUL,AGRICULTURA,"SOJA, ALPISTE",1,Productores,3,Letis S.A.,AGRICOLA EL HORIZONTE S.A.,EL RELINCHO,"Agricultura, ganadería, caza y servicios relac...",1,A
4,32,6,BUENOS AIRES,AZUL,AGRICULTURA,"SOJA, ALPISTE, TRIGO",1,Productores,3,Letis S.A.,AGRICOLA EL HORIZONTE S.A.,EL HORIZONTE,"Agricultura, ganadería, caza y servicios relac...",1,A


In [98]:
len(org['razón social'].unique()) == len(org['Certificadora_id'].unique())

False

In [99]:
org = org.drop(columns=['pais_id','rubro','categoria_desc','certificadora_deno','razón social','clae2_desc'])
org.head()

Unnamed: 0,provincia_id,provincia,departamento,productos,categoria_id,Certificadora_id,establecimiento,clae2,letra
0,6,BUENOS AIRES,BARADERO,SOJA,1,2,BARADERO 1,1,A
1,6,BUENOS AIRES,BARADERO,"GIRASOL, MIJO, RESIDUO VEGETAL",1,2,BARADERO 2,1,A
2,6,BUENOS AIRES,BARADERO,"MAIZ, AVENA, CAMPO NATURAL",1,2,EL BUEN RETIRO,1,A
3,6,BUENOS AIRES,AZUL,"SOJA, ALPISTE",1,3,EL RELINCHO,1,A
4,6,BUENOS AIRES,AZUL,"SOJA, ALPISTE, TRIGO",1,3,EL HORIZONTE,1,A


In [100]:
org.shape

(1261, 9)

In [101]:
org = pd.merge(org, indec[['nombre_departamento','nombre_provincia','codigo_indec_departamento']].drop_duplicates(),
                left_on=['provincia','departamento'],
                  right_on=['nombre_provincia','nombre_departamento'], how='left').drop(columns=['nombre_provincia','nombre_departamento'])

In [102]:
### Columna productos

org["productos"] = org["productos"].str.strip()
org["productos"] = org["productos"].str.replace(r'\s+', ' ', regex=True)
valores_unicos_ordenados = sorted(org["productos"].unique())
valores_unicos_ordenados

['ABONO VERDE, AJO',
 'ACEITE DE GIRASOL ALTO OLEICO',
 'ACEITE DE GIRASOL, ACEITE DE COLZA, EXPELLER DE GIRASOL, EXPELLER DE COLZA Y HARINA DE COLZA',
 'ACEITE DE GIRASOL, EXPELLER DE GIRASOL, ACEITE DE CANOLA, ACEITE DE SOJA, EXPELLER DE SOJA, GIRASOL, CANOLA, EXPELLER DE CANOLA, SORGO, TRIGO, MAIZ PISINGALLO, MAIZ, SOJA',
 'ACEITE DE GIRASOL, HARINA DE TRIGO',
 'ACEITE DE JOJOBA',
 'ACEITE DE JOJOBA, ACEITE DE CHIA',
 'ACEITE DE LIMPIEZA, EMULSION CORPORAL ANTIAGE, EMULSION CORPORAL NUTRITIVA, EMULSION CORPORAL SUAVIZANTE, CREMA FACIAL ANTIAGE, CREMA FACIAL DIURNA, CREMA FACIAL NOCTURNA NUTRITIVA, SERUM CONTORNO DE LABIOS, SERUM CONTORNO DE OJOS, TONICO FACIAL',
 'ACEITE DE OLIVA',
 'ACEITE DE OLIVA, ACEITE DE OLIVA SABORIZADO',
 'ACEITE DE PARAMELA',
 'ACEITE DE SOJA, ACEITE DE GIRASOL Y ACEITES DE COLZA, HARINA DE SOJA, EXPELLER DE GIRASOL Y EXPELLER DE CANOLA',
 'ACEITE ESENCIAL DE GERANIO, ACEITE ESENCIAL DE OREGANO, ACEITE ESENCIAL DE LEMONGRASS',
 'ACEITE ESENCIAL DE LIMON, JU

In [103]:
# noto que algunos elementos tienen un punto al final, mientras que otros no. Me encargo de quitar todo
# signo de puntuacion

# Reemplazar '+' , '-' , '?' y ';' por comas en la columna productos
org['productos'] = org['productos'].str.replace(r'[+\-?;]', ',', regex=True)
# Reemplazar las ' y '
org['productos'] = org['productos'].str.replace(r' Y ', ',', regex=True)
# Reemplazar los caracteres con dos puntos y algo más por simplemente lo que viene antes
org['productos'] = org['productos'].str.replace(r'[^:]+:', lambda x: x.group(0)[:-1], regex=True)

In [104]:
# Todavía quedan algunas celdas con valores que tienen texto entre paréntesis.
# Viéndolo con el explorador de variables, parece que no hacen más que dar una descripción algo más
# detallada del producto del que habla: el tipo de harina, de dónde es la chia, a qué se refieren con
# "frutas al natural", etc.
# Parece que algunos se pueden reemplazar por lo que tienen dentro del paréntesis, como frutas al natural,
# y en otros, como la chicha o las harinas, podemos quitar lo que tienen los paréntesis, pues parecen
# ser no más que muy pequeños detalles.


org['productos'] = org['productos'].str.replace(r'CHIA (SALVIA HISPANICA L)', 'CHIA', regex=True)

reemplazar_frutas_al_natural = {'CONFITURAS,FRUTAS AL NATURAL (FRAMBUESAS, FRUTILLAS, CASSIS, SAUCO, CEREZAS, ROSA MOSQUETA, MORA, ARANDANOS,FRUTOS DEL BOSQUE)':
                                'CONFITURAS, FRAMBUESAS, FRUTILLAS, CASSIS, SAUCO, CEREZAS, ROSA MOSQUETA, MORA, ARANDANOS,FRUTOS DEL BOSQUE'}
org['productos'].replace(reemplazar_frutas_al_natural, inplace=True)

In [105]:
def quitar_entre_parentesis(texto):
    return re.sub(r'\([^)]*\)', '', texto)

In [106]:
# Aplicar la función a la columna 'nombre_de_columna'
org['productos'] = org['productos'].apply(quitar_entre_parentesis)

In [107]:
def obtener_valores(lista_productos):
    valores = lista_productos.split(",")
    valores = [v.strip() for v in valores]
    return set(valores)

def obtener_productos(prod):
    productos = prod["productos"].copy()
    conjunto_valores = set()

    for producto in productos:
        try:
            conjunto_valores.update(obtener_valores(producto))
        except:
            print(producto)

    conjunto_valores.discard("")#que no se me cuelen espacios en blanco

    return conjunto_valores

In [108]:
prod_orga = pd.DataFrame(sorted(list(obtener_productos(org))),
                                      columns = ["producto"])

In [109]:
ruta = r'..\repetidos.csv'

with open(ruta, 'r') as csv:
    data = csv.read()

dict_productos_unificado = {}

for line in data.split('\n'):
    values = line.split(';')
    
    # Tomar el primer valor como clave
    key = values[0]
    
    # Asignar la clave al resto de los valores en el diccionario
    for value in values:
        if value.strip() != '':
            dict_productos_unificado[value.strip()] = key.strip()

# Verificación de la salida
for key, values in dict_productos_unificado.items():
    print(f"{key}: {values}")

ABONO VERDE: ABONO VERDE
ACEITE DE CANOLA: ACEITE DE CANOLA
ACEITE DE CARTAMO: ACEITE DE CARTAMO
ACEITE DE CHIA: ACEITE DE CHIA
ACEITE DE COLZA: ACEITE DE COLZA
ACEITE DE COLZA CANOLA: ACEITE DE COLZA CANOLA
ACEITE DE GIRASOL: ACEITE DE GIRASOL
ACEITE DE GIRASOL ALTO OLEICO: ACEITE DE GIRASOL
GIRASOL ALTO OLEICO: ACEITE DE GIRASOL
ACEITE DE JOJOBA: ACEITE DE JOJOBA
ACEITE DE LIMON: ACEITE DE LIMON
ACEITE DE LIMPIEZA: ACEITE DE LIMPIEZA
ACEITE DE MANDARINA: ACEITE DE MANDARINA
ACEITE ESENCIAL DE MANDARINA: ACEITE DE MANDARINA
ACEITE DE MANI: ACEITE DE MANI
ACEITE DE OLIVA: ACEITE DE OLIVA
ACEITE DE OLIVA SABORIZADO: ACEITE DE OLIVA
ACEITE DE PARAMELA: ACEITE DE PARAMELA
ACEITE DE ROSA MOSQUETA: ACEITE DE ROSA MOSQUETA
ACEITE DE SOJA: ACEITE DE SOJA
ACEITE ESENCIAL DE GERANIO: ACEITE ESENCIAL DE GERANIO
ACEITE ESENCIAL DE LEMONGRASS: ACEITE ESENCIAL DE LEMONGRASS
ACEITE ESENCIAL DE LIMON: ACEITE ESENCIAL DE LIMON
ACEITE ESENCIAL DE NARANJA: ACEITE ESENCIAL DE NARANJA
ACEITE ESENCIAL DE O

In [110]:
prod_orga.reset_index(inplace=True)
prod_orga.columns = ['id_producto','producto']
prod_orga

Unnamed: 0,id_producto,producto
0,0,ABONO VERDE
1,1,ACEITE DE CANOLA
2,2,ACEITE DE CARTAMO
3,3,ACEITE DE CHIA
4,4,ACEITE DE COLZA
...,...,...
493,493,ZAPALLO ANCO
494,494,ZAPALLO RED HOKKAIDO
495,495,ZARZAMORA
496,496,ZUCCHINI


In [111]:
def crear_relaciones(df, df_productos):
    filas_relacion = []
    for indice_fila, fila in df.copy().iterrows():
        # cada fila es una Serie que tiene como indice el nombre de la columna y
        # como valor el respectivo para el indice_fila

        # obtengo los productos que tiene este establecimiento
        productos = fila["productos"]
        productos_de_fila = obtener_valores(productos)
        productos_de_fila.discard("")

        # obtengo los indices de estos productos en prod_productos
        indices_productos = [df_productos[df_productos["producto"] == p].index[0] for p in productos_de_fila]

        for indice_producto in indices_productos:
            filas_relacion.append((indice_fila, indice_producto))

    df_establecimiento_producto = pd.DataFrame(filas_relacion, columns=["id_operador", "id_producto"])

    return df_establecimiento_producto

In [112]:
df_establecimiento_producto = crear_relaciones(org, prod_orga)
print(df_establecimiento_producto.shape)
df_establecimiento_producto.head()

(2986, 2)


Unnamed: 0,id_operador,id_producto
0,0,441
1,1,195
2,1,305
3,1,418
4,2,66


In [113]:
prod_orga['producto2'] = prod_orga.producto.map(dict_productos_unificado)
prod_orga

Unnamed: 0,id_producto,producto,producto2
0,0,ABONO VERDE,ABONO VERDE
1,1,ACEITE DE CANOLA,ACEITE DE CANOLA
2,2,ACEITE DE CARTAMO,ACEITE DE CARTAMO
3,3,ACEITE DE CHIA,ACEITE DE CHIA
4,4,ACEITE DE COLZA,ACEITE DE COLZA
...,...,...,...
493,493,ZAPALLO ANCO,ZAPALLO
494,494,ZAPALLO RED HOKKAIDO,ZAPALLO
495,495,ZARZAMORA,ZARZAMORA
496,496,ZUCCHINI,ZUCCHINI


In [114]:
df_establecimiento_producto = df_establecimiento_producto.merge(prod_orga[['id_producto','producto2']], on='id_producto')
df_establecimiento_producto

Unnamed: 0,id_operador,id_producto,producto2
0,0,441,SOJA
1,3,441,SOJA
2,4,441,SOJA
3,11,441,SOJA
4,12,441,SOJA
...,...,...,...
2981,1232,426,SEMILLA DE CEBOLLA
2982,1239,421,ROSELLA
2983,1244,143,DURAZNO
2984,1245,235,JUGO


In [115]:
prod_orga = prod_orga.drop_duplicates(subset='producto2')
prod_orga

Unnamed: 0,id_producto,producto,producto2
0,0,ABONO VERDE,ABONO VERDE
1,1,ACEITE DE CANOLA,ACEITE DE CANOLA
2,2,ACEITE DE CARTAMO,ACEITE DE CARTAMO
3,3,ACEITE DE CHIA,ACEITE DE CHIA
4,4,ACEITE DE COLZA,ACEITE DE COLZA
...,...,...,...
490,490,ZANAHORIA,ZANAHORIA
491,491,ZAPALLITO,ZAPALLITO
492,492,ZAPALLO,ZAPALLO
495,495,ZARZAMORA,ZARZAMORA


In [116]:
df_establecimiento_producto.drop(columns='id_producto', inplace= True)
df_establecimiento_producto = df_establecimiento_producto.merge(prod_orga[['id_producto', 'producto2']], on='producto2')
df_establecimiento_producto

Unnamed: 0,id_operador,producto2,id_producto
0,0,SOJA,441
1,3,SOJA,441
2,4,SOJA,441
3,11,SOJA,441
4,12,SOJA,441
...,...,...,...
2981,1210,VEGETAL.,479
2982,1227,PULIDO,378
2983,1232,SEMILLA DE LECHUGA,428
2984,1232,SEMILLA DE CEBOLLA,426


In [117]:
df_establecimiento_producto.drop(columns='producto2', inplace=True)
df_establecimiento_producto

Unnamed: 0,id_operador,id_producto
0,0,441
1,3,441
2,4,441
3,11,441
4,12,441
...,...,...
2981,1210,479
2982,1227,378
2983,1232,428
2984,1232,426


In [118]:
prod_orga = prod_orga.drop(columns = 'producto2')
prod_orga

Unnamed: 0,id_producto,producto
0,0,ABONO VERDE
1,1,ACEITE DE CANOLA
2,2,ACEITE DE CARTAMO
3,3,ACEITE DE CHIA
4,4,ACEITE DE COLZA
...,...,...
490,490,ZANAHORIA
491,491,ZAPALLITO
492,492,ZAPALLO
495,495,ZARZAMORA


In [119]:
columnas = ['id_operador'] + list(org.columns) 
org.reset_index(inplace=True)
org.columns = columnas
org.drop(columns='productos', inplace=True)
org.head()

Unnamed: 0,id_operador,provincia_id,provincia,departamento,categoria_id,Certificadora_id,establecimiento,clae2,letra,codigo_indec_departamento
0,0,6,BUENOS AIRES,BARADERO,1,2,BARADERO 1,1,A,6070
1,1,6,BUENOS AIRES,BARADERO,1,2,BARADERO 2,1,A,6070
2,2,6,BUENOS AIRES,BARADERO,1,2,EL BUEN RETIRO,1,A,6070
3,3,6,BUENOS AIRES,AZUL,1,3,EL RELINCHO,1,A,6049
4,4,6,BUENOS AIRES,AZUL,1,3,EL HORIZONTE,1,A,6049


In [120]:
org.shape

(1261, 10)

## Dataset establecimientos productivos

In [121]:
ruta = ".\TablasOriginales\distribucion_establecimientos_productivos_sexo.csv"
prod = pd.read_csv(ruta)

|Título de la columna|Tipo de dato|Descripción|
|:------------------:|------------|-----------|
|ID|Texto (string)|Indicador único por establecimiento|
|departamento|Texto (string)|Departamento del establecimiento|
|provincia|Texto (string)|Provincia del establecimiento|
|lat|Número decimal (number)|Latitud redondeada del establecimiento|
|lon|Número decimal (number)|Longitud redondeada del establecimiento|
|provincia_id|Número entero (integer)|Código de la provincia|
|in_departamentos|Número entero (integer)|Código del departamento|
|empleo|Texto (string)|Cantidad agrupada de empleo del establecimiento|
|clae6|Número entero (integer)|Actividad de la empresa a nivel de seis dígitos (CLAE6)|
|clae2|Número entero (integer)|Actividad de la empresa a nivel de dos dígitos (CLAE2)|
|letra|Texto (string)|Actividad de la empresa a nivel de letra (CLAE Letra)|
|Tipo_coordenada|Texto (string)|Campo que indica si el proceso de georreferenciación obtuvo un resultado específico o si se obtuvo la coordenada por aproximación|
|proporcion_mujeres|Número decimal (number)|Proporción de mujeres en el establecimiento productivo|

In [122]:
prod.head()

Unnamed: 0,ID,departamento,provincia,lat,lon,in_departamentos,provincia_id,empleo,clae6,clae2,letra,Tipo_coordenada,proporcion_mujeres
0,10000000018M51M5M2G1111111543049,Capital,Catamarca,-28.464,-65.785,10049,10,a. 1-9,949990,94,S,Exacta,1.0
1,1000000002MM0P1201G2020208914049,Capital,Catamarca,-28.464,-65.766,10049,10,a. 1-9,681098,68,L,Aproximada,0.0
2,1000000002MM1017P0G2020202577070,La Paz,Catamarca,-29.28,-65.06,10070,10,a. 1-9,89110,8,B,Exacta,0.0
3,1000000006681P86GG667501414147181049,Capital,Catamarca,-28.463,-65.796,10049,10,b. 10-49,11299,1,A,Aproximada,0.0
4,1000000007215MG51051616168109070,La Paz,Catamarca,-28.88,-65.14,10070,10,a. 1-9,14113,1,A,Aproximada,0.0


In [123]:
prod.in_departamentos.unique()

array([10049, 10070, 10112, 10091, 10105, 10035, 10098, 10063, 10028,
       10042, 10084, 10021, 10007, 10014, 10056, 10077, 14014, 14182,
       14042, 14140, 14119, 14161, 14091, 14098, 14063, 14126, 14021,
       14049, 14084, 14028, 14007, 14035, 14105, 14154, 14056, 14133,
       14147, 14168, 14112, 14175, 14070, 14077, 18112, 18070, 18021,
       18168, 18119, 18084, 18105, 18035, 18014, 18007, 18147, 18077,
       18049, 18063, 18056, 18126, 18133, 18091, 18154, 18028, 18042,
       18140, 18098, 18175, 18161,  2021,  2014,  2007,  2028,  2105,
        2070,  2049,  2035,  2042,  2084,  2098,  2091,  2077,  2056,
        2063, 22140, 22028, 22133, 22168, 22105, 22036, 22112, 22007,
       22021, 22063, 22070, 22039, 22098, 22077, 22043, 22154, 22119,
       22084, 22091, 22049, 22126, 22014, 22147, 22161, 22056, 26035,
       26021, 26077, 26007, 26105, 26070, 26091, 26014, 26042, 26098,
       26084, 26056, 26063, 26049, 26028, 30084, 30056, 30028, 30049,
       30008, 30105,

In [124]:
prod.clae2.unique()

array([94, 68,  8,  1, 92, 47, 56, 96, 46, 86, 85, 49, 10, 53, 77,  7, 65,
       45, 70, 55, 93, 11, 82, 75, 78, 42, 60, 69, 64, 71, 74, 21, 59, 27,
       41, 62, 84, 35,  9, 20, 80, 15, 43, 81, 79, 95, 51, 23, 72, 52, 66,
       17, 31, 25, 16, 87, 63, 14, 12, 33, 13,  3, 18, 61, 36, 88, 28, 91,
       58, 26, 73, 30, 39, 32,  2, 38, 29, 22, 90, 24,  6, 19, 99, 50, 37,
       97,  5], dtype=int64)

In [125]:
prod.shape

(706498, 13)

In [126]:
prod.proporcion_mujeres.dtype

dtype('float64')

In [127]:
prod.proporcion_mujeres.describe()

count    706498.000000
mean          0.350244
std           0.405810
min           0.000000
25%           0.000000
50%           0.143000
75%           0.727000
max           1.000000
Name: proporcion_mujeres, dtype: float64

In [128]:
prod.isna().sum()

ID                    0
departamento          0
provincia             0
lat                   0
lon                   0
in_departamentos      0
provincia_id          0
empleo                0
clae6                 0
clae2                 0
letra                 0
Tipo_coordenada       0
proporcion_mujeres    0
dtype: int64

In [129]:
prod.empleo.value_counts()

a. 1-9        599210
b. 10-49       87170
c. 50-199      16903
d. 200-499      2430
e. 500+          785
Name: empleo, dtype: int64

In [130]:
mapa = {'a. 1-9': '1-9', 'b. 10-49': '10-49',
        'c. 50-199': '50-199', 'd. 200-499': '200-499',
        'e. 500+': '500+'}

prod.empleo = prod.empleo.map(mapa)

In [131]:
prod.provincia.value_counts()

Buenos Aires           220261
CABA                   157563
Cordoba                 65736
Santa Fe                64205
Mendoza                 28817
Entre Rios              20460
Tucuman                 14922
Rio Negro               12935
Salta                   12243
Misiones                12092
Neuquen                 11693
Corrientes              10718
Chaco                   10654
Chubut                  10265
San Juan                 8863
La Pampa                 7726
Santiago Del Estero      6748
San Luis                 6255
Jujuy                    6224
Santa Cruz               4867
Catamarca                3609
Formosa                  3342
Tierra Del Fuego         3215
La Rioja                 3085
Name: provincia, dtype: int64

In [132]:
prod['provincia'] = prod['provincia'].apply(lambda x: x.upper() if x != 'CABA' else 'CIUDAD AUTONOMA DE BUENOS AIRES')
prod['provincia'].value_counts()

BUENOS AIRES                       220261
CIUDAD AUTONOMA DE BUENOS AIRES    157563
CORDOBA                             65736
SANTA FE                            64205
MENDOZA                             28817
ENTRE RIOS                          20460
TUCUMAN                             14922
RIO NEGRO                           12935
SALTA                               12243
MISIONES                            12092
NEUQUEN                             11693
CORRIENTES                          10718
CHACO                               10654
CHUBUT                              10265
SAN JUAN                             8863
LA PAMPA                             7726
SANTIAGO DEL ESTERO                  6748
SAN LUIS                             6255
JUJUY                                6224
SANTA CRUZ                           4867
CATAMARCA                            3609
FORMOSA                              3342
TIERRA DEL FUEGO                     3215
LA RIOJA                          

In [133]:
prod.departamento.value_counts()

Capital                         66382
Comuna 1                        39236
Rosario                         25338
Comuna 14                       16199
Comuna 13                       14393
                                ...  
Santa Victoria                      3
Ángel Vicente Peñaloza              2
Iruya                               2
General Juan Facundo Quiroga        1
Ramón Lista                         1
Name: departamento, Length: 445, dtype: int64

In [134]:
prod['departamento'] = prod['departamento'].apply(organizar_string)
prod['departamento'].value_counts()

CAPITAL                         66382
COMUNA 1                        39236
ROSARIO                         25338
COMUNA 14                       16199
COMUNA 13                       14393
                                ...  
SANTA VICTORIA                      3
ANGEL VICENTE PEÑALOZA              2
IRUYA                               2
GENERAL JUAN FACUNDO QUIROGA        1
RAMON LISTA                         1
Name: departamento, Length: 445, dtype: int64

In [135]:
prod[['provincia','departamento','ID']].groupby(by=['provincia','departamento']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,ID
provincia,departamento,Unnamed: 2_level_1
BUENOS AIRES,25 DE MAYO,767
BUENOS AIRES,9 DE JULIO,1078
BUENOS AIRES,ADOLFO ALSINA,432
BUENOS AIRES,ADOLFO GONZALES CHAVES,313
BUENOS AIRES,ALBERTI,238
...,...,...
TUCUMAN,SIMOCA,124
TUCUMAN,TAFI DEL VALLE,129
TUCUMAN,TAFI VIEJO,704
TUCUMAN,TRANCAS,122


In [136]:
def problema_encoding(caracteres:str):

    LETRAS = string.ascii_letters + string.digits + ' '
    i = 0
    while i < len(caracteres) and caracteres[i] in LETRAS:
        i += 1

    return i == len(caracteres)

In [137]:
codificacion = prod.departamento.apply(problema_encoding)
codificacion.value_counts()

True     694774
False     11724
Name: departamento, dtype: int64

In [138]:
pd.unique(prod.departamento[~codificacion])

array(['PRESIDENTE ROQUE SAENZ PEÑA', "O'HIGGINS", 'GENERAL GÜEMES',
       'MAYOR LUIS J. FONTANA', '1° DE MAYO', 'LANGUIÑEO', 'PATIÑO',
       'DR. MANUEL BELGRANO', 'ROSARIO VERA PEÑALOZA',
       'ANGEL VICENTE PEÑALOZA', 'MALARGÜE', 'LEANDRO N. ALEM', 'AÑELO',
       'ÑORQUIN', 'JOSE C. PAZ', 'CAÑUELAS', 'ÑORQUINCO', 'LA VIÑA',
       'GÜER AIKE'], dtype=object)

In [139]:
## reemplazo el indice indec de caba

prod['in_departamentos'].replace([2021, 2014, 2007, 2028, 2105, 2070, 2049, 2035, 2042, 2084, 2098,
       2091, 2077, 2056, 2063], 2, inplace= True)

In [140]:
comprobacion = pd.merge(prod[['provincia','departamento','in_departamentos']].drop_duplicates(), indec[['codigo_indec_departamento', 'nombre_departamento']],
                         left_on='in_departamentos', right_on='codigo_indec_departamento', how='left')


comprobacion[comprobacion['departamento'] != comprobacion['nombre_departamento']]

Unnamed: 0,provincia,departamento,in_departamentos,codigo_indec_departamento,nombre_departamento
754,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 3,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
755,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 2,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
756,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 1,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
757,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 4,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
758,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 15,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
759,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 10,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
760,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 7,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
761,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 5,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
762,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 6,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES
763,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 12,2,2.0,CIUDAD AUTONOMA DE BUENOS AIRES


In [141]:
### me doy cuenta que hay un problema con los departamentos de tierra del fuego en el dataset de productores pues su codigo indec
### no figura en el padron

indec[indec['nombre_provincia'] == 'TIERRA DEL FUEGO']

Unnamed: 0,gid,nombre_geografico,nombre_departamento,codigo_indec_departamento,codigo_indec_provincia,nombre_provincia
3522,14569,RIO GRANDE,RIO GRANDE,94007,94,TIERRA DEL FUEGO
3523,14580,TOLHUIN,RIO GRANDE,94007,94,TIERRA DEL FUEGO
3524,14595,USHUAIA,USHUAIA,94014,94,TIERRA DEL FUEGO
3525,14611,LAGUNA ESCONDIDA,USHUAIA,94014,94,TIERRA DEL FUEGO
3527,14673,PUERTO ARGENTINO,ISLAS DEL ATLANTICO SUR,94021,94,TIERRA DEL FUEGO


In [142]:
# solucionamos tierra del fuego

prod['in_departamentos'] = prod['in_departamentos'].replace({94008:94007, 94015:94014, 94011:94007})

In [143]:
comprobacion = pd.merge(prod[['provincia','departamento','in_departamentos']], indec[['codigo_indec_departamento', 'nombre_departamento']],
                         left_on='in_departamentos', right_on='codigo_indec_departamento', how='left')


comprobacion[comprobacion['departamento'] != comprobacion['nombre_departamento']].drop_duplicates()

Unnamed: 0,provincia,departamento,in_departamentos,codigo_indec_departamento,nombre_departamento
1251739,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 3,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251740,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 2,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251741,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 1,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251744,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 4,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251745,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 15,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251747,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 10,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251748,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 7,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251752,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 5,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251757,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 6,2,2,CIUDAD AUTONOMA DE BUENOS AIRES
1251769,CIUDAD AUTONOMA DE BUENOS AIRES,COMUNA 12,2,2,CIUDAD AUTONOMA DE BUENOS AIRES


In [144]:
prod.shape

(706498, 13)

In [145]:
prod['nombre_departamento'] = comprobacion['nombre_departamento']
prod.drop(columns='departamento', inplace=True)

In [146]:
prod.shape

(706498, 13)

In [147]:
prod.isna().sum()

ID                     0
provincia              0
lat                    0
lon                    0
in_departamentos       0
provincia_id           0
empleo                 0
clae6                  0
clae2                  0
letra                  0
Tipo_coordenada        0
proporcion_mujeres     0
nombre_departamento    0
dtype: int64

In [148]:
prod = prod[['ID','provincia_id','in_departamentos','nombre_departamento','empleo','proporcion_mujeres','clae2']]

# Relaciones a partir del DER

1. $ \textbf{PROVINCIA}(\texttt{ID\_provincia}, \texttt{Nombre}) $

2. $ \textbf{DEPARTAMENTO}(\texttt{ID\_departamento}, \texttt{Nombre}) $

3. $ \textbf{ESTABLECIMIENTO\_PRODUCTIVO}(\texttt{ID\_establecimiento}, \texttt{proporcion\_mujeres}) $

4. $ \textbf{OPERADOR\_ORGANICO}(\texttt{ID\_operador}) $

6. $ \textbf{PRODUCTOS}(\texttt{ID\_producto}, \texttt{Nombre}) $

7. $ \textbf{RUBRO}(\texttt{clae2}, \texttt{clae\_letra}, \texttt{descripcion}) $

1. $ \textbf{PROVINCIA}(\texttt{ID\_provincia}, \texttt{Nombre}) $

2. $ \textbf{DEPARTAMENTO}(\texttt{ID\_departamento}, \texttt{Nombre}, \texttt{ID\_provincia}) \rightarrow $ *Estrategia de la foreign key para relacion 1:N entre DEPARTAMENTO y PROVINCIA*

3. $ \textbf{ESTABLECIMIENTO\_PRODUCTIVO}(\texttt{ID\_establecimiento}, \texttt{proporcion\_mujeres}, \texttt{ID\_departamento}) \rightarrow $ *Estrategia de la foreign key para relacion 1:N entre ESTABLECIMIENTO y DEPARTAMENTO*

4. $ \textbf{OPERADOR\_ORGANICO}(\texttt{ID\_operador}, \texttt{ID\_departamento}) \rightarrow $ *Estrategia de la foreign key para relacion 1:N entre OPERADOR y DEPARTAMENTO*

5. $ \textbf{PRODUCTOS}(\texttt{ID\_producto}, \texttt{Nombre}) $

6. $ \textbf{RUBRO}(\texttt{clae2}, \texttt{clae\_letra}, \texttt{descripcion}) $

7. $ \textbf{OPERADOR\_PRODUCE}(\texttt{ID\_operador}, \texttt{ID\_producto}) \rightarrow $  *Relacion muchos a muchos N:M entre RUBRO Y OPERADOR*

In [149]:
provincia = pd.DataFrame(columns=['ID_provincia','Nombre'])
provincia

Unnamed: 0,ID_provincia,Nombre


In [150]:
departamento = pd.DataFrame(columns=['ID_departamento', 'Nombre', 'ID_provincia'])
departamento

Unnamed: 0,ID_departamento,Nombre,ID_provincia


In [151]:
establecimiento_productivo = pd.DataFrame(columns=['ID_establecimiento', 'proporcion_mujeres','ID_departamento','clae2'])
establecimiento_productivo

Unnamed: 0,ID_establecimiento,proporcion_mujeres,ID_departamento,clae2


In [152]:
operador_organico = pd.DataFrame(columns=['ID_operador','ID_departamento'])
operador_organico

Unnamed: 0,ID_operador,ID_departamento


In [153]:
productos = pd.DataFrame(columns=['ID_producto', 'Nombre'])
productos

Unnamed: 0,ID_producto,Nombre


In [154]:
rubro = pd.DataFrame(columns=['clae2','letra','descripcion'])
rubro

Unnamed: 0,clae2,letra,descripcion


In [155]:
operador_produce = pd.DataFrame(columns=['ID_operador','ID_producto'])
operador_produce

Unnamed: 0,ID_operador,ID_producto


# Llenamos las tablas

In [156]:
sub_indec_provincia = indec[['codigo_indec_provincia','nombre_provincia']].drop_duplicates().sort_values(by='nombre_provincia').reset_index(drop=True)
sub_indec_provincia.columns = provincia.columns

provincia = pd.concat([provincia,sub_indec_provincia], axis=0)
provincia.head()

Unnamed: 0,ID_provincia,Nombre
0,6,BUENOS AIRES
1,10,CATAMARCA
2,22,CHACO
3,26,CHUBUT
4,2,CIUDAD AUTONOMA DE BUENOS AIRES


In [157]:
provincia.to_csv('.\TablasLimpias\provincia.csv')

In [158]:
sub_indec_departamento = indec[['codigo_indec_departamento','nombre_departamento','codigo_indec_provincia']].drop_duplicates().sort_values(by='nombre_departamento').reset_index(drop=True)
sub_indec_departamento.columns = departamento.columns

departamento = pd.concat([departamento,sub_indec_departamento], axis=0)
departamento.head()

Unnamed: 0,ID_departamento,Nombre,ID_provincia
0,22036,12 DE OCTUBRE,22
1,22126,1º DE MAYO,22
2,22039,2 DE ABRIL,22
3,62091,25 DE MAYO,62
4,70126,25 DE MAYO,70


In [159]:
departamento.to_csv('.\TablasLimpias\departamento.csv')

In [160]:
productivos = prod[['ID','proporcion_mujeres','in_departamentos','clae2']].drop_duplicates().reset_index(drop=True)
productivos.columns = establecimiento_productivo.columns

establecimiento_productivo = pd.concat([establecimiento_productivo,productivos], axis=0)
establecimiento_productivo.head()

Unnamed: 0,ID_establecimiento,proporcion_mujeres,ID_departamento,clae2
0,10000000018M51M5M2G1111111543049,1.0,10049,94
1,1000000002MM0P1201G2020208914049,0.0,10049,68
2,1000000002MM1017P0G2020202577070,0.0,10070,8
3,1000000006681P86GG667501414147181049,0.0,10049,1
4,1000000007215MG51051616168109070,0.0,10070,1


In [161]:
productivos.shape

(706498, 4)

In [162]:
establecimiento_productivo.to_csv('.\TablasLimpias\establecimiento_productivo.csv')

In [163]:
organicos = org[['id_operador','codigo_indec_departamento']]
organicos.columns = operador_organico.columns

operador_organico = pd.concat([operador_organico,organicos], axis=0)
operador_organico.head()

Unnamed: 0,ID_operador,ID_departamento
0,0,6070
1,1,6070
2,2,6070
3,3,6049
4,4,6049


In [164]:
operador_organico.to_csv('.\TablasLimpias\operador_organico.csv')

In [165]:
prod_orga.columns = productos.columns
productos = pd.concat([productos, prod_orga], axis=0)
productos.head()

Unnamed: 0,ID_producto,Nombre
0,0,ABONO VERDE
1,1,ACEITE DE CANOLA
2,2,ACEITE DE CARTAMO
3,3,ACEITE DE CHIA
4,4,ACEITE DE COLZA


In [166]:
productos.to_csv('.\TablasLimpias\productos.csv')

In [167]:
clae2_letra = clae[['clae2','letra','clae2_desc']].drop_duplicates()
clae2_letra.columns = rubro.columns
rubro = pd.concat([rubro, clae2_letra], axis=0)
rubro.head()

Unnamed: 0,clae2,letra,descripcion
0,1,A,"Agricultura, ganadería, caza y servicios relac..."
82,2,A,Silvicultura y explotación forestal
89,3,A,Pesca y acuicultura
95,5,B,Extracción de carbón y lignito
97,6,B,Extracción de petróleo crudo y gas natural


In [168]:
rubro.to_csv(r'.\TablasLimpias\rubro.csv')

In [169]:
df_establecimiento_producto.columns = operador_produce.columns
operador_produce = pd.concat([operador_produce, df_establecimiento_producto], axis=0)
operador_produce.head()

Unnamed: 0,ID_operador,ID_producto
0,0,441
1,3,441
2,4,441
3,11,441
4,12,441


In [170]:
operador_produce.to_csv('.\TablasLimpias\operador_produce.csv')