<!DOCTYPE html>
<html>
<head>
    <style>
        .center-image {
            display: block;
            margin: 0 auto;
        }
    </style>
</head>
<body>
    <img src="https://th.bing.com/th/id/OIP.H8rLL0KNU2WYEeNCu4vSdAHaFu?rs=1&pid=ImgDetMain" alt="Nombre del Logo" class="center-image">
</body>
</html>





En este Notebook de Python, realizaremos un acondicionamiento de las bases proporcionadas por Randstad https://ar.gutrade.io/Mondelezar/Private/Dashboard a lo largo del proyecto Censo. La intención es documentar y generalizar el proceso mediante el cual se obtienen las bases para los distintos pedidos de Mondelez. Las bases serán las siguientes:

1. Reporte de tareas
2. Reporte de entrada y salida manual
3. Reporte de observaciones

Cada uno de estos reportes contiene información única y/o complementaria de las distintas instancias (locales censados) a lo largo del proyecto del censo. La fecha que se utilizó para realizar la obtención de la base de datos es la siguiente:

![Lapso Temporal](reporte%20de%20entrada%20y%20salida%20Manual.png)


In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# Configuro pandas para mostrar todas las columnas
pd.set_option('display.max_columns', None)

A lo largo de la primera etapa, se contaba con un esquema de encuesta que constaba de 441 columnas. Dichas columnas contenían distintas preguntas de interés. Actualmente, para la segunda etapa, contamos con 81 columnas, las cuales sintetizan en menos variables algo de la información que se podía extraer en la primera etapa. Lo que necesitamos es una base que pueda contener todas las instancias (registros) del proyecto Censo. Es por eso que debemos adaptar las bases de manera tal que podamos aglomerar los datos tanto de la primera y segunda etapa, como con distintos reportes que nos proporcionarán información complementaria.

In [2]:
df = pd.read_excel("Reportes de tareas completadas-ZONA CORDOBA PRUEBA-15(formato anterior).xlsx")
df1 = pd.read_excel("Reportes de tareas completadas-Relevamiento Agosto Update-14(formato anterior).xlsx")
df2 = pd.read_excel("Reportes de tareas completadas-Relevamiento Agosto Update 3-12(formato anterior).xlsx")
df3 = pd.read_excel("Reportes de tareas completadas-Recenso-16(primer formato).xlsx")


In [3]:
# Observamos las dimenciones de nuestros datos
print(df.shape)
print(df1.shape)
print(df2.shape)
print(df3.shape)

(70, 441)
(28615, 441)
(6, 437)
(510, 441)


Realizaremos una concatenación de datos. A diferencia de otro tipo de uniones de tablas, la concatenación no requiere una columna en común. La concatenación agrega registros de una tabla a otra siempre que las columnas tengan los mismos nombres. Para las columnas que no tienen nombres en común, se generan registros Nulos (N/A). A continuación, observaremos un ejemplo de cómo funciona.

### Concatenación con las Mismas Columnas

Primero, los DataFrames originales `df` y `df2`:

#### `df`

| pvdid | mondelez_e | trabaja con?   |
|-------|------------|----------------|
| 1     | 0          | distribuidor   |
| 2     | 0          | N/A            |
| 3     | 1          | distribuidor   |
| 4     | 1          | distribuidor   |
| 5     | 1          | mayorista      |
| 6     | 1          | mayorista      |
| 7     | 0          | otro           |
| 8     | 0          | distribuidor   |
| 9     | 0          | otro           |

#### `df2`

| pvdid | mondelez_e | trabaja con?   |
|-------|------------|----------------|
| 10    | 0          | distribuidor   |
| 11    | 0          | N/A            |
| 12    | 1          | distribuidor   |
| 13    | 1          | distribuidor   |
| 14    | 1          | mayorista      |
| 15    | 1          | mayorista      |
| 16    | 0          | otro           |
| 17    | 0          | distribuidor   |
| 18    | 0          | otro           |

#### DataFrame Concatenado

| pvdid | mondelez_e | trabaja con?   |
|-------|------------|----------------|
| 1     | 0          | distribuidor   |
| 2     | 0          | N/A            |
| 3     | 1          | distribuidor   |
| 4     | 1          | distribuidor   |
| 5     | 1          | mayorista      |
| 6     | 1          | mayorista      |
| 7     | 0          | otro           |
| 8     | 0          | distribuidor   |
| 9     | 0          | otro           |
| 10    | 0          | distribuidor   |
| 11    | 0          | N/A            |
| 12    | 1          | distribuidor   |
| 13    | 1          | distribuidor   |
| 14    | 1          | mayorista      |
| 15    | 1          | mayorista      |
| 16    | 0          | otro           |
| 17    | 0          | distribuidor   |
| 18    | 0          | otro           |

### Concatenación con Columnas Diferentes

Primero, los DataFrames originales `df` y `df2`:

#### `df`

| pvdid | mondelez_e | trabaja con?   |
|-------|------------|----------------|
| 1     | 0          | distribuidor   |
| 2     | 0          | N/A            |
| 3     | 1          | distribuidor   |
| 4     | 1          | distribuidor   |
| 5     | 1          | mayorista      |
| 6     | 1          | mayorista      |
| 7     | 0          | otro           |
| 8     | 0          | distribuidor   |
| 9     | 0          | otro           |

#### `df2`

| pvdid | another_col | extra_col      |
|-------|-------------|----------------|
| 10    | 5           | value1         |
| 11    | 3           | value2         |
| 12    | 8           | value3         |
| 13    | 7           | value4         |
| 14    | 6           | value5         |
| 15    | 2           | value6         |
| 16    | 4           | value7         |
| 17    | 1           | value8         |
| 18    | 9           | value9         |

#### DataFrame Concatenado

| pvdid | mondelez_e | trabaja con?   | another_col | extra_col      |
|-------|------------|----------------|-------------|----------------|
| 1     | 0          | distribuidor   | NaN         | NaN            |
| 2     | 0          | N/A            | NaN         | NaN            |
| 3     | 1          | distribuidor   | NaN         | NaN            |
| 4     | 1          | distribuidor   | NaN         | NaN            |
| 5     | 1          | mayorista      | NaN         | NaN            |
| 6     | 1          | mayorista      | NaN         | NaN            |
| 7     | 0          | otro           | NaN         | NaN            |
| 8     | 0          | distribuidor   | NaN         | NaN            |
| 9     | 0          | otro           | NaN         | NaN            |
| 10    | NaN        | NaN            | 5           | value1         |
| 11    | NaN        | NaN            | 3           | value2         |
| 12    | NaN        | NaN            | 8           | value3         |
| 13    | NaN        | NaN            | 7           | value4         |
| 14    | NaN        | NaN            | 6           | value5         |
| 15    | NaN        | NaN            | 2           | value6         |
| 16    | NaN        | NaN            | 4           | value7         |
| 17    | NaN        | NaN            | 1           | value8         |
| 18    | NaN        | NaN            | 9           | value9         |

En este ejemplo, las columnas adicionales de `df2` (`another_col` y `extra_col`) se añaden al DataFrame concatenado, pero las filas del DataFrame `df` original tienen valores `NaN` (Not a Number) para estas nuevas columnas, y viceversa para las columnas originales de `df` en las filas de `df2`.

ahora relizaremo un cambio de nombres a las columnas de los dintintos df con la intencion de identificar cada pregunta de la encuesta a cada tipo de canal. 

In [4]:
nuevos_nombres = {'Cantidad de Cajas': 'Cantidad de Cajas(Autoservicio)',
                  'Cantidad de Góndolas': 'Cantidad de Góndolas(Autoservicio)',
                  'Tiene Verdulería': 'Tiene Verdulería(Autoservicio)',
                  'Tiene Fiambrería': 'Tiene Fiambrería(Autoservicio)',
                  'Heladeras con lacteos': 'Heladeras con lacteos(Autoservicio)',
                  'Heladeras con bebidas': 'Heladeras con bebidas(Autoservicio)',
                  'Cantidad de Exhibidores de primeras marcas (Lays/Gaseosas/Cervezas)': 'Cantidad de Exhibidores de primeras marcas(Almacen)',
                  'Tiene surtido de vinos': 'Tiene surtido de vinos(Almacen)',
                  'Tiene Heladera de lácteos': 'Tiene Heladera de lácteos(Almacen)',
                  'Tiene gondola': 'Tiene gondola(Maxi Kiosco)',
                  'En caso de que si tenga gondola, cuan llena esta?': 'si tenga gondola, cuan llena esta?(Maxi Kiosco)',
                  'Tiene exhibidor de chicles/caramelos': 'Tiene exhibidor de chicles/caramelos(Maxi Kiosco)',
                  'En caso de tener exhibidor de chicles/caramelos, cuan lleno esta?': 'cuan lleno esta?(Maxi Kiosco)',
                  'No tiene servicios adicionales': 'No tiene servicios adicionales(Maxi Kiosco)',
                  'Fotocopias': 'Fotocopias(Maxi Kiosco)',
                  'RapiPago': 'RapiPago(Maxi Kiosco)',
                  'Tramites': 'Tramites(Maxi Kiosco)',
                  'SUBE': 'SUBE(Maxi Kiosco)',
                 'Cuan llena estan las estanterias': 'Cuan llena estan las estanterias(Kiosco Ventana)',
                 'Comercializa chocolates': 'Comercializa chocolates(Vinoteca)',
                  'Comercializa productos de kiosco': 'Comercializa productos de kiosco(farmacia)',
                  'Modalidad de Venta': 'Modalidad de Venta(Goloteca/Golsineria)',
                  'Tabletas': 'Tabletas(Goloteca/Golsineria)',
                  'Bombones': 'Bombones(Goloteca/Golsineria)',
                  'Alfajores': 'Alfajores(Goloteca/Golsineria)',
                  'Chicles': 'Chicles(Goloteca/Golsineria)',
                  'Caramelos': 'Caramelos(Goloteca/Golsineria)',
                  'Galletas': 'Galletas(Goloteca/Golsineria)',
                  'Cantidad de góndolas/estanterías': 'Cantidad de góndolas/estanterías(Dietetica)',
                 'BC': 'BC(Dietetica)',
                  'Aguila': 'Aguila(Dietetica)',
                  'CerealMix': 'CerealMix(Dietetica)',
                  'Turrón Arcor': 'Turrón Arcor(Dietetica)',
                  'Chocolate sin Azúcar Georgalos': 'Chocolate sin Azúcar Georgalos(Dietetica)',
                  'Llenado de estanterías': 'Llenado de estanterías(Dietetica)',
                  'Georgalos': 'Georgalos(Dietetica)',
                  'Cigarros': 'Cigarros(Dietetica)',
                  'Identificador de persona de interés': 'ID_censista'
                  }
df = df.rename(columns=nuevos_nombres)
df1 = df1.rename(columns=nuevos_nombres)
df2 = df2.rename(columns=nuevos_nombres)
df3 = df3.rename(columns=nuevos_nombres)

In [5]:
#Concatenamos los datos
df = pd.concat([df,df1, df2,df3], ignore_index=True)

In [6]:
# Observamos la union 
df.shape

(29201, 442)

In [7]:
df

Unnamed: 0,Fecha de inicio,Hora inicio,Coordenadas inicio,Fecha completado,Hora completado,Coordenadas fin,ID_censista,Nombre de persona de interés,IMEI del teléfono,Número de teléfono,Identificador del punto de interés,Nombre del punto de interés,Jerarquia 1 del punto de interés,Jerarquia 2 del punto de interés,Departamento del punto de interés,Dirección del punto de interés,Nombre contacto en punto de interés,Teléfono contacto en punto de interés,Provincia,Departamentos,Localidad,Tipo de Punto de Venta,Número de Polígono,Preguntas,Razón Social,CUIT,Papeles?,Canal,Cantidad de Cajas(Autoservicio),Cantidad de Góndolas(Autoservicio),Tiene Verdulería(Autoservicio),Tiene Fiambrería(Autoservicio),Heladeras con lacteos(Autoservicio),Heladeras con bebidas(Autoservicio),Oreo,Cadbury,Milka,Toblerone,Halls,Tang,Club Social,Royal,Clight,Terrabusi,Variedad,Beldent,Bubaloo,Criollitas,Diversion,Flics,Formis,Cofler,Hogareñas,Kesitas,La campagnola,Macucas,Maná,Mellizas,Menthoplus,Merengadas,Mogul,Mister Pops,Natural Break,Nereida,Opera,Poncho Negro,Porteñitas,Seven,Topline,Toddy,Flynpaff,Nucream,Full mani,Sin azucares,Bazooka,Palitos de la selva,Flow cereal,Flynnies yogur,Mantecol,Philipp Morris,Malboro,Lucky Strike,Chesterfields,Red Point,Melbour,Stella Artois,Quilmes,Patagonia,Corona,Budweisser,Brahma,Andes,Coca Cola,Fanta,Sprite,Schweppes,powerade,Cepita,Pepsi,Seven U,Tropicana,Quaker,Lays,Doritos,Cheetos,Gatorade,Paso de los toros,Mirinda,H2OH!,Estado de Inmueble,Cantidad de heladeras,Cantidad de Exhibidores de primeras marcas(Almacen),Tiene surtido de vinos(Almacen),Tiene Heladera de lácteos(Almacen),Oreo2,Cadbury3,Milka4,Toblerone5,Halls6,Tang7,Club Social8,Royal9,Clight10,Terrabusi11,Variedad12,Beldent13,Bubaloo14,Criollitas15,Diversion16,Flics17,Formis18,Cofler19,Hogareñas20,Kesitas21,La campagnola22,Macucas23,Maná24,Mellizas25,Menthoplus26,Merengadas27,Mogul28,Mister Pops29,Natural Break30,Nereida31,Opera32,Poncho Negro33,Porteñitas34,Seven35,Topline36,Topline37,Flynpaff38,Nucream39,Full mani40,Sin azucares41,Bazooka42,Palitos de la selva43,Flow cereal44,Flynnies yogur45,Mantecol46,Philipp Morris47,Malboro48,Lucky Strike49,Chesterfields50,Red Point51,Melbour52,Stella Artois53,Quilmes54,Patagonia55,Corona56,Budweisser57,Brahma58,Andes59,Coca Cola60,Fanta61,Sprite62,Schweppes63,powerade64,Cepita65,Pepsi66,Seven U67,Tropicana68,Quaker69,Lays70,Doritos71,Cheetos72,Gatorade73,Paso de los toros74,Mirinda75,H2OH!76,Estado de Inmueble77,Cantidad de Heladeras78,Estado del inmueble,Tiene gondola(Maxi Kiosco),"si tenga gondola, cuan llena esta?(Maxi Kiosco)",Tiene exhibidor de chicles/caramelos(Maxi Kiosco),cuan lleno esta?(Maxi Kiosco),Oreo79,Cadbury80,Milka81,Toblerone82,Halls83,Tang84,Club Social85,Royal86,Clight87,Terrabusi88,Variedad89,Beldent90,Bubaloo91,Criollitas92,Diversion93,Flics94,Formis95,Cofler96,Hogareñas97,Kesitas98,La campagnola99,Macucas100,Maná101,Mellizas102,Menthoplus103,Merengadas104,Mogul105,Mister Pops106,Natural Break107,Nereida108,Opera109,Poncho Negro110,Porteñitas111,Seven112,Topline113,Toddy114,Flynpaff115,Nucream116,Full mani117,Sin azucares118,Bazooka119,Palitos de la selva120,Flow cereal121,Flynnies yogur122,Mantecol123,Philipp Morris124,Malboro125,Lucky Strike126,Chesterfields127,Red Point128,Melbour129,Stella Artois130,Quilmes131,Patagonia132,Corona133,Budweisser134,Brahma135,Andes136,Coca Cola137,Fanta138,Sprite139,Schweppes140,powerade141,Cepita142,Pepsi143,Seven U144,Tropicana145,Quaker146,Lays147,Doritos148,Cheetos149,Gatorade150,Paso de los toros151,Mirinda152,H2OH!153,No tiene servicios adicionales(Maxi Kiosco),Fotocopias(Maxi Kiosco),RapiPago(Maxi Kiosco),Tramites(Maxi Kiosco),SUBE(Maxi Kiosco),Cantidad de Heladeras visibles,Cuan llena estan las estanterias(Kiosco Ventana),Oreo154,Cadbury155,Milka156,Toblerone157,Halls158,Tang159,Club Social160,Royal161,Clight162,Terrabusi163,Variedad164,Beldent165,Beldent166,Criollitas167,Diversion168,Flics169,Formis170,Cofler171,Hogareñas172,Kesitas173,La campagnola174,Macucas175,Maná176,Mellizas177,Menthoplus178,Merengadas179,Mogul180,Mister Pops181,Natural Break182,Nereida183,Opera184,Poncho Negro185,Porteñitas186,Seven187,Topline188,Toddy189,Flynpaff190,Nucream191,Full mani192,Sin azucares193,Bazooka194,Palitos de la selva195,Flow cereal196,Flynnies yogur197,Mantecol198,Philipp Morris199,Malboro200,Lucky Strike201,Chesterfields202,Red Point203,Melbour204,Stella Artois205,Quilmes206,Patagonia207,Corona208,Budweisser209,Brahma210,Andes211,Coca Cola212,Fanta213,Sprite214,Schweppes215,powerade216,Cepita217,Pepsi218,Seven U219,Tropicana220,Quaker221,Lays222,Doritos223,Cheetos224,Gatorade225,Paso de los toros226,Mirinda227,H2OH!228,Estado de inmueble229,Comercializa chocolates(Vinoteca),Comercializa productos de kiosco(farmacia),Modalidad de Venta(Goloteca/Golsineria),Tabletas(Goloteca/Golsineria),Bombones(Goloteca/Golsineria),Alfajores(Goloteca/Golsineria),Chicles(Goloteca/Golsineria),Caramelos(Goloteca/Golsineria),Galletas(Goloteca/Golsineria),Oreo230,Cadbury231,Milka232,Toblerone233,Halls234,Tang235,Club Social236,Royal237,Clight238,Terrabusi239,Variedad240,Beldent241,Bubaloo242,Criollitas243,Diversion244,Flics245,Formis246,Cofler247,Hogareñas248,Kesitas249,La campagnola250,Macucas251,Maná252,Mellizas253,Menthoplus254,Merengadas255,Mogul256,Mister Pops257,Natural Break258,Nereida259,Opera260,Poncho Negro261,Porteñitas262,Seven263,Topline264,Toddy265,Flynpaff266,Nucream267,Full mani268,Sin azucares269,Bazooka270,Palitos de la selva271,Flow cereal272,Flynnies yogur273,Mantecol274,Estado del inmueble275,Cantidad de góndolas/estanterías(Dietetica),Clight276,Tang277,BC(Dietetica),Aguila(Dietetica),CerealMix(Dietetica),Turrón Arcor(Dietetica),Chocolate sin Azúcar Georgalos(Dietetica),Llenado de estanterías(Dietetica),Cantidad de heladeras278,Estado de Inmueble279,Arcor,Georgalos(Dietetica),Cigarros(Dietetica),Quilmes280,Coca Cola281,Pepsi282,Mondelez,Trabaja con?,Distribuidor,Frecuencia de Visita,Frecuencia de entrega,Se acerca un repositor de Mondelez?,Se acerca un repositor de la competencia?,"En caso de que sea otro, indicar con quien",Aplicaciones B2B,Mondelez283,Arcor284,BEES,Serenisima,Massalin,Observaciones,Que servicios adicionales tiene
0,2023-09-22 13:11:14.360,2023-09-22 13:11:14.360,"-31.40063806312049600000,-64.17788129299879000000",2023-09-22 13:13:30.620,2023-09-22 13:13:30.620,"-31.40055740000000000000,-64.17788640000000000000",95882179,Jairo Alvarez,2.309221e+14,3513608369,PUO-586376,Punto de venta Falso Jairo,,,,Calle falsa 123,,,Córdoba,Capital,Córdoba,Kiosco Ventana,,,Kiosko falso,12345678912.0,No,Kiosco Ventana,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,50%,1.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,En condiciones aceptables,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,Distribuidor,Dlv,1 vez por semana,1 vez por semana,No,Si,,Si,1.0,1.0,1.0,1.0,1.0,,
1,2023-09-22 13:12:13.380,2023-09-22 13:12:13.380,"-33.12970171598299600000,-64.34739556163550000000",2023-09-22 13:15:32.283,2023-09-22 13:15:32.283,"-33.12964630000000000000,-64.34752060000000000000",27895672,Cristian Frias,2.309221e+14,3513973955,PU -984469,Punto de venta falso Cristian,,,,Alberdi 1240,,,Córdoba,Río Cuarto,Rio Cuarto,Almacén,,,Amiri,,Si,Almacén,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,2,1,Si,Si,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,Ordenado y Limpio,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,Distribuidor,AyV Lopez,1 vez por semana,1 vez por semana,No,No,,No,,,,,,,
2,2023-10-02 08:07:43.903,2023-10-02 08:07:43.903,"-33.13460694888710000000,-64.34980787336826000000",2023-10-02 08:08:09.340,2023-10-02 08:08:09.340,"-33.13447960000000000000,-64.34935790000000000000",27895672,Cristian Frias,2.309221e+14,3513973955,MOS-290036,Morales,Verdulería,,Córdoba,Irigoyen y Mansilla,,,Córdoba,Río Cuarto,Rio Cuarto,Verdulería,,,Morales,,Si,Verdulería,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,2023-10-02 08:08:41.727,2023-10-02 08:08:41.727,"-33.13446713206605000000,-64.34955976903439000000",2023-10-02 08:11:20.127,2023-10-02 08:11:20.127,"-33.13449750000000000000,-64.34940190000000000000",27895672,Cristian Frias,2.309221e+14,3513973955,AL -194025,Alaniz,Almacén,,Córdoba,Mansilla E Irigoyen,,,Córdoba,Río Cuarto,Rio Cuarto,Almacén,,,Alanniz,,Si,Almacén,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1,1,Si,No,1.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,En condiciones aceptables,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,1.0,0.0,1.0,1.0,1.0,1.0,Distribuidor,AyV Lopez,1 vez por semana,1 vez por semana,No,No,,No,,,,,,,
4,2023-10-02 08:15:28.427,2023-10-02 08:15:28.427,"-33.13371750796244400000,-64.34930227696896000000",2023-10-02 08:17:46.910,2023-10-02 08:17:46.910,"-33.13370490000000000000,-64.34931580000000000000",27895672,Cristian Frias,2.309221e+14,3513973955,PA -860869,Pago Fácil y Quiniela,Maxi Kiosco,,Córdoba,Irigoyen 1683,,,Córdoba,Río Cuarto,Rio cuarto,Maxi Kiosco,,,,,Si,Maxi Kiosco,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1,En condiciones aceptables,Si,50%,No,,1.0,0.0,1.0,0.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,1.0,0.0,1.0,1.0,1.0,1.0,Distribuidor,AyV López,1 vez por semana,1 vez por semana,No,No,,No,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29196,2023-12-12 12:36:18.953,2023-12-12 12:36:18.953,"-28.45158238549127500000,-65.78902490437031000000",2023-12-12 12:52:31.387,2023-12-12 12:52:31.387,"-28.45140360000000000000,-65.78781310000000000000",CT-174616,Lautaro Segura,2.308111e+14,1121885018,AL1-595129,Almacen 1,Almacén,,Catamarca,Valle Viejo 86,,,Catamarca,San Fernando,San Fernando del Valle de Catamarca,Almacén,,,Candela ruiz,20678745756.0,Si,Almacén,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,3 o más,1,Si,Si,1.0,1.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,Ordenado y Limpio,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,Mayorista,,,,,,,Si,0.0,1.0,1.0,1.0,1.0,,
29197,2023-12-12 13:17:52.703,2023-12-12 13:17:52.703,"-28.45969033406645000000,-65.77573288232088000000",2023-12-12 13:18:50.177,2023-12-12 13:18:50.177,"-28.45938500000000000000,-65.77571830000000000000",CT-174616,Lautaro Segura,2.308111e+14,1121885018,VEA-850587,Verduleria,Verdulería,,Catamarca,Archeverroa,,,Catamarca,Capital,Capital,Verdulería,,,Ruben toloza,,Si,Verdulería,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
29198,2023-12-12 13:20:12.497,2023-12-12 13:20:12.497,"-28.46031050492335000000,-65.77528327703476000000",2023-12-12 13:22:00.787,2023-12-12 13:22:00.787,"-28.45938500000000000000,-65.77571830000000000000",CT-174616,Lautaro Segura,2.308111e+14,1121885018,COO-335868,Cocodrilo,Bar,,Catamarca,Av belgrano,,,Catamarca,Capital,Capital,Bar,,,Ramon sampayo,,Si,Bar,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
29199,2023-12-12 13:22:49.123,2023-12-12 13:22:49.123,"-28.46033644354911700000,-65.77534262090921000000",2023-12-12 13:26:38.020,2023-12-12 13:26:38.020,"-28.45938500000000000000,-65.77571830000000000000",CT-174616,Lautaro Segura,2.308111e+14,1121885018,"MA,-621094","Maxi kiosko,",Maxi Kiosco,,Catamarca,Av belgrano,,,Catamarca,Capital,Capital,Maxi Kiosco,,,Bastian coronel,20678432123.0,Si,Maxi Kiosco,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,3 o más,Ordenado y Limpio,No,,Si,100%,1.0,1.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,Mayorista,,,,,,,Si,0.0,1.0,1.0,1.0,0.0,,


Como podemos observar en la tabla superior, tenemos la cantidad de 29,201 registros y 442 columnas. Ahora realizaremos distintas transformaciones para adaptar el número de columnas del esquema de encuesta de la primera etapa al esquema de la segunda etapa, todo esto sin perder sentido.

Primero, realizaremos una unificación de columnas. La base contiene la misma pregunta pero para diferentes canales. Esto quiere decir que si tenemos columnas como 'cantidad de heladeras' y 'cantidad de heladeras2', aunque estas columnas representen lo mismo, están dirigidas a distintos comercios; una puede estar dirigida a canales de comercialización como autoservicios y otra a Maxi Kioscos. Esta forma de administrar la información es poco práctica y eficiente a la hora de tener una base de datos que contemple toda la información. Es por esto que realizaremos uniones de distintas columnas. Un ejemplo gráfico de esto es el siguiente:

#### Antes de la unificación:


|  Tipo de Punto de Venta  |  Cantidad de heladeras  |  Cantidad de heladeras visibles  |
|--------------------------|-------------------------|----------------------------------|
|      Maxi kiosco         |          0              |               NA                 |
|      Almacén             |          NA             |               1                  |
|      Maxi kiosco         |          1              |               NA                 |
|      Almacén             |          NA             |               0                  |
|      Maxi kiosco         |          1              |               NA                 |
|      Almacén             |          NA             |               1                  |


#### Después de la unificación:


|  Tipo de Punto de Venta  |  Cantidad de heladeras  |
|--------------------------|-------------------------|
|      Maxi kiosco         |            0            |
|      Almacén             |            1            |
|      Maxi kiosco         |            1            |
|      Almacén             |            0            |
|      Maxi kiosco         |            1            |
|      Almacén             |            1            |



In [8]:

columnas_unificar = ['Cantidad de heladeras','Cantidad de Heladeras visibles' ,'Cantidad de Heladeras78','Cantidad de heladeras278']
df[columnas_unificar] = df[columnas_unificar].replace('N/A', 0)
# Reemplazar '3 o más' por 3
df[columnas_unificar] =df[columnas_unificar].replace('3 o más', 3)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Cantidad_de_heladeras_1'] = df[columnas_unificar].sum(axis=1)
df = df.drop(columnas_unificar, axis=1)

In [9]:

columnas_unificar = ['Estado de Inmueble','Estado de Inmueble279','Estado de Inmueble77','Estado de inmueble229','Estado del inmueble','Estado del inmueble275']
for columna in columnas_unificar:
    df[columna] = df[columna].replace('N/A', ' ').fillna(' ')

df['Estado_de_Inmueble_1'] = df[columnas_unificar].sum(axis=1)
df = df.drop(columnas_unificar, axis=1)

In [10]:
remplazos={'   Ordenado y Limpio ':'Ordenado y Limpio',
    ' Ordenado y Limpio   ':'Ordenado y Limpio',
    'Ordenado y limpio    ':'Ordenado y Limpio',
    '  Ordenado y Limpio  ':'Ordenado y Limpio',
    '    Ordenado y Limpio':'Ordenado y Limpio',
    '   En condiciones aceptables ':'En condiciones aceptables',
    ' En condiciones aceptables   ':'En condiciones aceptables',
    '  En condiciones aceptables  ':'En condiciones aceptables',
    'En condiciones aceptables    ':'En condiciones aceptables',
    '    En condiciones aceptables':'En condiciones aceptables',
    '   En condiciones aceptables ':'En condiciones aceptables',
    '   En condiciones aceptables ':'En condiciones aceptables',
    '   Precario ':'Precario',
    ' Precario   ':'Precario',
    'Precario    ':'Precario',
    '    Precario':'Precario',
    '  Precario  ':'Precario',   
    'Ordenado y Limpio    ':'Ordenado y Limpio',
    '    Ordenado y limpio':'Ordenado y limpio',
    'Ordenado y limpio':'Ordenado y Limpio',
    '   En condiciones aceptables   ':'En condiciones aceptables',
    'Ordenado y Limpio      ':'Ordenado y Limpio',
    '     Ordenado y Limpio ':'Ordenado y Limpio',
    'Ordenado y Limpio ':'Ordenado y Limpio',
    '      Ordenado y Limpio':'Ordenado y Limpio',
    'En condiciones aceptables      ':'En condiciones aceptables',
    '      En condiciones aceptables':'En condiciones aceptables',
    '     En condiciones aceptables ':'En condiciones aceptables',
    ' En condiciones aceptables  En condiciones aceptables  ':'En condiciones aceptables',
    ' Ordenado y limpio  Ordenado y limpio  ':'Ordenado y Limpio',
    '   Ordenado y Limpio   ':'Ordenado y Limpio',
    '      Precario':'Precario',
    'Precario      ':'Precario',
    '  Ordenado y Limpio    ':'Ordenado y Limpio',
    ' Precario  Precario  ':'Precario',
    '     Precario ':'Precario',
    'Precario ':'Precario',
    '   Ordenado y Limpio  ':'Ordenado y Limpio',
    '     En condiciones aceptables':'En condiciones aceptables',
    '   En condiciones aceptables  ':'En condiciones aceptables',
    '     Ordenado y Limpio':'Ordenado y Limpio',
    '  Ordenado y Limpio   ':'Ordenado y Limpio',
    '  En condiciones aceptables   ':'En condiciones aceptables',
    '    Ordenado y limpio ':'Ordenado y limpio',
    ' Ordenado y Limpio    ':'Ordenado y Limpio',
    '     Precario':'Precario',
    'Ordenado y Limpio     ':'Ordenado y Limpio',
    ' En condiciones aceptables    ':'En condiciones aceptables',
    '    En condiciones aceptables ':'En condiciones aceptables',
    '   Precario  ':'Precario',
    '  Precario   ':'Precario',
    '    Precario ':'Precario',
    'En condiciones aceptables     ':'En condiciones aceptables',
    'Precario     ':'Precario',
    ' Precario    ':'Precario',
    'Ordenado y limpio':'Ordenado y Limpio',
    'Ordenado y limpio':'Ordenado y Limpio',
    'Ordenado y limpio':'Ordenado y Limpio',
    '    Ordenado y Limpio ':'Ordenado y Limpio',
    'Ordenado y limpio     ':'Ordenado y Limpio'
}

    # Aplicar el mapeo a la columna 'Localidad'
df['Estado_de_Inmueble_1'] = df['Estado_de_Inmueble_1'].replace(remplazos)

# Verificar los valores únicos después del mapeo
valores_unicos = df['Estado_de_Inmueble_1'].unique()
print(valores_unicos)

['En condiciones aceptables' 'Ordenado y Limpio' '      ' 'Precario']


Detectando posibles oportunidades. Ahora realizaremos una búsqueda de texto particular en la columna llamada 'observaciones'. Dado que el universo de observaciones que pueden derivar en una oportunidad es amplio, realizaremos una búsqueda teniendo en cuenta palabras clave que pueden ser indicadores de oportunidades de crecimiento y/o oportunidades de mejora. La lista de palabras clave a buscar es la siguiente:
- 'visita'
- 'preventista'
- 'mondelez'
- 'vendedor'
- 'delez'
- 'interesa'

In [11]:
import re

#  lista de palabras clave
palabras_clave = [ 'visita', 'preventista', 'mondelez', 'vendedor', 'delez','interesa']

# Función para buscar patrones en una observación
def buscar_patrones(observacion):
    if isinstance(observacion, str):
        observacion = observacion.lower()  # Convertir la observación a minúsculas
        for palabra in palabras_clave:
            patron = r'\b' + palabra + r'\w*'  # Usamos \w* para permitir cualquier carácter después de la palabra clave
            if re.search(patron, observacion):
                return 1
    return 0

# Aplicar la función a la columna "Observaciones" y crear la columna "Oportunidades"

# Aplicar la función a la columna "Observaciones" y crear la columna "Oportunidades"
df['Oportunidades'] = df['Observaciones'].apply(buscar_patrones)

La diferencia más grande entre la primera y segunda etapa del proyecto censo es la forma en que se extraía la información de las empresas. En la primera etapa, los censistas realizaban preguntas sobre productos que pertenecían a diversas empresas tales como Arcor, Mondelez, Quilmes, Coca-Cola, etc. La cantidad de marcas era de un total de 75. A diferencia, la segunda etapa contempla preguntas solo sobre la presencia de empresas a través de productos, por lo que, por ejemplo, si uno de los N productos de Mondelez estaba dentro del local, los censistas ahora completan un 1 en una columna referida a la empresa. Esto, a fines prácticos, mejora el tiempo que los censistas tardan en realizar la encuesta a costa de perder información de productos.

A esto hay que sumar que **cada producto se le pregunta a cada punto de venta core pero el llenado de la información es en columnas diferentes**. Por ejemplo, tenemos 5 columnas para la marca Oreo y las 5 se llenan con 0 o 1. Lo que haremos será unificar estas columnas.

In [12]:
# Lista de columnas a unificar
columnas_unificar = ['Oreo', 'Oreo2', 'Oreo79', 'Oreo154','Oreo230']

df[columnas_unificar] = df[columnas_unificar].replace('N/A', 0)

# Reemplazar los valores NaN por 0 en las columnas
df[columnas_unificar] = df[columnas_unificar].fillna(0)

# Convertir todas las celdas en las columnas a tipo entero
df[columnas_unificar] = df[columnas_unificar].astype(int)

# Sumar los valores de las columnas y crear la columna 'Oreo_Unificada'
df['Oreo_1'] = df[columnas_unificar].sum(axis=1)

# Eliminar las columnas originales
df = df.drop(columnas_unificar, axis=1)


In [13]:
columnas_unificar=['Cadbury','Cadbury3','Cadbury80','Cadbury155','Cadbury231']
df[columnas_unificar] = df[columnas_unificar].replace('N/A', 0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Cadbury_1'] = df[columnas_unificar].sum(axis=1)
df = df.drop(columnas_unificar, axis=1)

In [14]:
columnas_unificar=['Milka','Milka4','Milka81','Milka156','Milka232']
df[columnas_unificar] = df[columnas_unificar].replace('N/A', 0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Milka_1'] = df[columnas_unificar].sum(axis=1)
df = df.drop(columnas_unificar, axis=1)

In [15]:
columnas_unificar=['Toblerone','Toblerone5','Toblerone82','Toblerone157','Toblerone233']
df[columnas_unificar] = df[columnas_unificar].replace('N/A', 0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Toblerone_1'] = df[columnas_unificar].sum(axis=1)
df = df.drop(columnas_unificar, axis=1)

In [16]:
columnas_unificar=['Halls','Halls6','Halls83','Halls158','Halls234']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Halls_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [17]:
columnas_unificar=['Tang','Tang7','Tang84','Tang159','Tang235','Tang277']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Tang_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [18]:
columnas_unificar=['Club Social','Club Social8', 'Club Social85','Club Social160','Club Social236']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Club_Social_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [19]:
columnas_unificar=['Royal','Royal9','Royal86','Royal161','Royal237']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0) 
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Royal_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [20]:
columnas_unificar = ['Clight', 'Clight10', 'Clight87', 'Clight162', 'Clight238', 'Clight276']  
df[columnas_unificar] = df[columnas_unificar].replace('N/A', 0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Clight_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [21]:
columnas_unificar=['Terrabusi','Terrabusi11','Terrabusi88','Terrabusi163','Terrabusi239']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Terrabusi_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [22]:
columnas_unificar=['Variedad','Variedad12','Variedad89','Variedad164','Variedad240']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Variedad_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [23]:
columnas_unificar =['Beldent','Beldent13','Beldent90','Beldent165','Beldent241','Beldent166']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Beldent_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [24]:
columnas_unificar=['Bubaloo','Bubaloo14','Bubaloo91','Bubaloo242']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Bubaloo_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [25]:
columnas_unificar=['Criollitas','Criollitas15','Criollitas92','Criollitas167','Criollitas243']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Criollitas_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [26]:
columnas_unificar=['Diversion','Diversion16','Diversion93','Diversion168','Diversion244']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Diversion_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [27]:
columnas_unificar=['Flics','Flics17','Flics94','Flics169','Flics245']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Flics_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [28]:
columnas_unificar=['Formis','Formis18','Formis95','Formis170','Formis246']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Formis_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [29]:
columnas_unificar=['Cofler','Cofler19','Cofler96','Cofler171','Cofler247']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Cofler_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [30]:
columnas_unificar=['Hogareñas','Hogareñas20','Hogareñas97','Hogareñas172','Hogareñas248']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Hogareñas_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [31]:
columnas_unificar=['Kesitas','Kesitas21','Kesitas98','Kesitas173','Kesitas249']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Kesitas_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [32]:
columnas_unificar=['La campagnola','La campagnola22','La campagnola99','La campagnola174','La campagnola250']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['La_campagnola_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [33]:
columnas_unificar=['Macucas','Macucas23','Macucas100','Macucas175','Macucas251']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Macucas_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [34]:
columnas_unificar=['Maná','Maná101','Maná176','Maná252','Maná24']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Maná_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [35]:
columnas_unificar=['Mellizas','Mellizas25','Mellizas102','Mellizas177','Mellizas253']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Mellizas_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [36]:
columnas_unificar=['Menthoplus','Menthoplus26','Menthoplus103','Menthoplus178','Menthoplus254']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Menthoplus_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [37]:
columnas_unificar=['Merengadas','Merengadas27','Merengadas104','Merengadas179','Merengadas255']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Merengadas_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [38]:
columnas_unificar=['Mogul','Mogul28','Mogul105','Mogul180','Mogul256']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Mogul_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [39]:
columnas_unificar=['Mister Pops','Mister Pops29','Mister Pops106','Mister Pops181','Mister Pops257']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Mister_Pops_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [40]:
columnas_unificar=['Natural Break','Natural Break30','Natural Break107','Natural Break182','Natural Break258']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Natural_Break_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [41]:
columnas_unificar=['Nereida','Nereida31','Nereida108','Nereida183','Nereida259']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Nereida_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [42]:
columnas_unificar=['Opera','Opera32','Opera109','Opera184','Opera260']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Opera_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [43]:
columnas_unificar=['Poncho Negro','Poncho Negro33','Poncho Negro110','Poncho Negro185','Poncho Negro261']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Poncho_Negro_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [44]:
columnas_unificar=['Porteñitas','Porteñitas34','Porteñitas111','Porteñitas186','Porteñitas262']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Porteñitas_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [45]:
columnas_unificar=['Seven','Seven35','Seven112','Seven187','Seven263']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Seven_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [46]:
columnas_unificar=['Topline','Topline36','Topline37','Topline113','Topline188','Topline264']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Topline_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [47]:
columnas_unificar=['Toddy','Toddy114','Toddy189','Toddy265']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Toddy_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [48]:
columnas_unificar=['Flynpaff','Flynpaff38','Flynpaff115','Flynpaff190','Flynpaff266']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Flynpaff_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [49]:
columnas_unificar=['Nucream','Nucream39','Nucream116','Nucream191','Nucream267']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Nucream_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [50]:
columnas_unificar=['Full mani','Full mani40','Full mani117', 'Full mani192','Full mani268']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Full_mani_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [51]:
columnas_unificar=['Sin azucares','Sin azucares41','Sin azucares118','Sin azucares193','Sin azucares269']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Sin_azucares_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [52]:
columnas_unificar=['Bazooka','Bazooka42','Bazooka119','Bazooka194','Bazooka270']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Bazooka_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [53]:
columnas_unificar=['Palitos de la selva','Palitos de la selva43','Palitos de la selva120','Palitos de la selva195','Palitos de la selva271']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Palitos_de_la_selva_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [54]:
columnas_unificar=['Flow cereal','Flow cereal44','Flow cereal121','Flow cereal196','Flow cereal272']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Flow_cereal_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [55]:
columnas_unificar=['Flynnies yogur','Flynnies yogur45','Flynnies yogur122','Flynnies yogur197','Flynnies yogur273']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Flynnies_yogur_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [56]:
columnas_unificar=['Mantecol','Mantecol46','Mantecol123','Mantecol198','Mantecol274']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Mantecol_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [57]:
columnas_unificar=['Philipp Morris','Philipp Morris47','Philipp Morris124','Philipp Morris199']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Philipp_Morris_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [58]:
columnas_unificar=['Malboro','Malboro48','Malboro125','Malboro200']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Malboro_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [59]:
columnas_unificar=['Lucky Strike','Lucky Strike49','Lucky Strike126','Lucky Strike201']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Lucky_Strike_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [60]:
columnas_unificar=['Chesterfields','Chesterfields50','Chesterfields127','Chesterfields202']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Chesterfields_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Chesterfields_1'] = df[columnas_unificar].sum(axis=1)


In [61]:
columnas_unificar=['Red Point','Red Point51','Red Point128','Red Point203']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Red_Point_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Red_Point_1'] = df[columnas_unificar].sum(axis=1)


In [62]:
columnas_unificar=['Melbour','Melbour52','Melbour129','Melbour204']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Melbour_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Melbour_1'] = df[columnas_unificar].sum(axis=1)


In [63]:
columnas_unificar=['Stella Artois','Stella Artois53','Stella Artois130','Stella Artois205']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Stella_Artois_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Stella_Artois_1'] = df[columnas_unificar].sum(axis=1)


In [64]:
columnas_unificar=['Quilmes','Quilmes54','Quilmes131','Quilmes206','Quilmes280']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Quilmes_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Quilmes_1'] = df[columnas_unificar].sum(axis=1)


In [65]:
columnas_unificar=['Patagonia','Patagonia55','Patagonia132','Patagonia207']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Patagonia_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Patagonia_1'] = df[columnas_unificar].sum(axis=1)


In [66]:
columnas_unificar=['Corona','Corona56','Corona133','Corona208']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Corona_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)


  df['Corona_1'] = df[columnas_unificar].sum(axis=1)


In [67]:
columnas_unificar=['Budweisser','Budweisser57','Budweisser134','Budweisser209']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Budweisser_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Budweisser_1'] = df[columnas_unificar].sum(axis=1)


In [68]:
columnas_unificar=['Brahma','Brahma58','Brahma135','Brahma210']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Brahma_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Brahma_1'] = df[columnas_unificar].sum(axis=1)


In [69]:
columnas_unificar=['Andes','Andes59','Andes136','Andes211']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Andes_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Andes_1'] = df[columnas_unificar].sum(axis=1)


In [70]:
columnas_unificar=['Coca Cola','Coca Cola60','Coca Cola137','Coca Cola212','Coca Cola281']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Coca_Cola_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Coca_Cola_1'] = df[columnas_unificar].sum(axis=1)


In [71]:
columnas_unificar=['Fanta','Fanta61','Fanta138','Fanta213']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Fanta_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Fanta_1'] = df[columnas_unificar].sum(axis=1)


In [72]:
columnas_unificar=['Sprite','Sprite62','Sprite139','Sprite214']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Sprite_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Sprite_1'] = df[columnas_unificar].sum(axis=1)


In [73]:
columnas_unificar=['Schweppes','Schweppes63','Schweppes140','Schweppes215']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Schweppes_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Schweppes_1'] = df[columnas_unificar].sum(axis=1)


In [74]:
columnas_unificar=['powerade','powerade64','powerade141','powerade216']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['powerade_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['powerade_1'] = df[columnas_unificar].sum(axis=1)


In [75]:
columnas_unificar=['Cepita','Cepita65','Cepita142','Cepita217']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Cepita_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Cepita_1'] = df[columnas_unificar].sum(axis=1)


In [76]:
columnas_unificar=['Pepsi','Pepsi66','Pepsi143','Pepsi218','Pepsi282']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Pepsi_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Pepsi_1'] = df[columnas_unificar].sum(axis=1)


In [77]:
columnas_unificar=['Seven U','Seven U67','Seven U144','Seven U219']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Seven_U_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Seven_U_1'] = df[columnas_unificar].sum(axis=1)


In [78]:
columnas_unificar=['Tropicana','Tropicana68','Tropicana145','Tropicana220']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Tropicana_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Tropicana_1'] = df[columnas_unificar].sum(axis=1)


In [79]:
columnas_unificar=['Quaker','Quaker69','Quaker146','Quaker221']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Quaker_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Quaker_1'] = df[columnas_unificar].sum(axis=1)


In [80]:
columnas_unificar=['Lays','Lays70','Lays147','Lays222']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Lays_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Lays_1'] = df[columnas_unificar].sum(axis=1)


In [81]:
columnas_unificar=['Doritos','Doritos71','Doritos148','Doritos223']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Doritos_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Doritos_1'] = df[columnas_unificar].sum(axis=1)


In [82]:
columnas_unificar=['Cheetos','Cheetos72','Cheetos149','Cheetos224']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Cheetos_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Cheetos_1'] = df[columnas_unificar].sum(axis=1)


In [83]:
columnas_unificar=['Gatorade','Gatorade73','Gatorade150','Gatorade225']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Gatorade_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Gatorade_1'] = df[columnas_unificar].sum(axis=1)


In [84]:
columnas_unificar=['Paso de los toros','Paso de los toros74','Paso de los toros151','Paso de los toros226']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Paso_de_los_toros_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Paso_de_los_toros_1'] = df[columnas_unificar].sum(axis=1)


In [85]:
columnas_unificar=['Mirinda','Mirinda75','Mirinda152','Mirinda227']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Mirinda_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Mirinda_1'] = df[columnas_unificar].sum(axis=1)


In [86]:
columnas_unificar=['H2OH!','H2OH!76','H2OH!153','H2OH!228']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['H2OH!_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['H2OH!_1'] = df[columnas_unificar].sum(axis=1)


In [87]:
columnas_unificar=['Mondelez','Mondelez283']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['MDLZ_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['MDLZ_1'] = df[columnas_unificar].sum(axis=1)


In [88]:
columnas_unificar=['Arcor284','Arcor']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['Arcor_1'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

  df['Arcor_1'] = df[columnas_unificar].sum(axis=1)


Una vez unificadas las columnas, realizaremos un bucle en las distintas columnas para transformar cualquier valor distinto de 0 en 1. Esto se debe a que los censistas muchas veces completaban las columnas de distintos puntos de venta para una misma encuesta.

In [89]:
columnas_a_modificar = [ 'Oreo_1', 'Cadbury_1', 'Milka_1', 'Toblerone_1', 'Halls_1',
                        'Tang_1', 'Club_Social_1', 'Royal_1', 'Clight_1', 'Terrabusi_1',
                        'Variedad_1', 'Beldent_1', 'Bubaloo_1', 'Criollitas_1', 'Diversion_1',
                        'Flics_1', 'Formis_1', 'Cofler_1', 'Hogareñas_1', 'Kesitas_1', 'La_campagnola_1',
                        'Macucas_1', 'Maná_1', 'Mellizas_1', 'Menthoplus_1', 'Merengadas_1', 'Mogul_1',
                        'Mister_Pops_1', 'Natural_Break_1', 'Nereida_1', 'Opera_1', 'Poncho_Negro_1',
                        'Porteñitas_1', 'Seven_1', 'Topline_1', 'Toddy_1', 'Flynpaff_1', 'Nucream_1',
                        'Full_mani_1', 'Sin_azucares_1', 'Bazooka_1', 'Palitos_de_la_selva_1', 'Flow_cereal_1',
                        'Flynnies_yogur_1', 'Mantecol_1', 'Philipp_Morris_1', 'Malboro_1', 'Lucky_Strike_1',
                        'Chesterfields_1', 'Red_Point_1', 'Melbour_1', 'Stella_Artois_1', 'Quilmes_1',
                        'Patagonia_1', 'Corona_1', 'Budweisser_1', 'Brahma_1', 'Andes_1', 'Coca_Cola_1',
                        'Fanta_1', 'Sprite_1', 'Schweppes_1', 'powerade_1', 'Cepita_1', 'Pepsi_1', 'Seven_U_1',
                        'Tropicana_1', 'Quaker_1', 'Lays_1', 'Doritos_1', 'Cheetos_1', 'Gatorade_1', 'Paso_de_los_toros_1',
                        'Mirinda_1', 'H2OH!_1', 'MDLZ_1', 'Arcor_1']

for columna in columnas_a_modificar:
    df[columna] = df[columna].apply(lambda x: 1 if x > 1 else x)



In [90]:
# Cambio los nombres de los productos.
nuevas_marcas= {'Oreo_1':'Oreo',
                'Cadbury_1':'Cadbury',
                'Milka_1': 'Milka',
                'Toblerone_1':'Toblerone',
                'Halls_1': 'Halls',
                'Tang_1':'Tang',
                'Club_Social_1': 'Club Social',
                'Royal_1': 'Royal',
                'Clight_1':'Cligth',
                'Terrabusi_1': 'Terrabusi',
                'Variedad_1': 'Variedad',
                'Beldent_1': 'Beldent',
                'Bubaloo_1':'Bubaloo',
                'Criollitas_1':'Criollitas',
                'Diversion_1':'Diversion',
                'Flics_1':'Flics',
                'Formis_1':'Formis',
                'Cofler_1':'Cofler',
                'Hogareñas_1':'Hogareñas',
                'Kesitas_1': 'Kesitas',
                'La_campagnola_1': 'La Campañola',
                'Macucas_1':'Macucas',
                'Maná_1': 'Mana',
                'Mellizas_1': 'Mellizas',
                'Menthoplus_1': 'Menthoplus',
                'Merengadas_1':'Merengadas',
                'Mogul_1':'Mogul',
                'Mister_Pops_1': 'Mister Pops',
                'Natural_Break_1': 'Natural Break',
                'Nereida_1': 'Nerida',
                'Opera_1':'Opera',
                'Poncho_Negro_1':'Poncho Negro',
                'Porteñitas_1':'Porteñitas',
                'Seven_1':'Seven',
                'Topline_1': 'Topline',
                'Toddy_1': 'Toddy',
                'Flynpaff_1':'Flynpaff',
                'Nucream_1':'Nucream',
                'Full_mani_1':'Full Mani',
                'Sin_azucares_1':'Sin Azucares',
                'Bazooka_1':'Bazooka',
                'Palitos_de_la_selva_1':'Palitos De La Selva',
                'Flow_cereal_1': 'Flow Cereal',
                'Flynnies_yogur_1': 'Flynnies Yogur',
                'Mantecol_1':'Mantecol',
                'Philipp_Morris_1':'Philipp Morris',
                'Malboro_1': 'Malboro',
                'Lucky_Strike_1':'Lucky Strike',
                'Chesterfields_1':'Chesterfields',
                'Red_Point_1':'Red Point',
                'Melbour_1':'Melbour',
                'Stella_Artois_1':'Stella Artois',
                'Quilmes_1':'Quilmes',
                'Patagonia_1':'Patagonia',
                'Corona_1' :'Corona',
                'Budweisser_1':'Budweisser',
                'Brahma_1':'Brahma',
                'Andes_1':'Andes',
                'Coca_Cola_1': 'Coca Cola',
                'Fanta_1':'Fanta',
                'Sprite_1':'Sprite',
                'Schweppes_1':'Schweppes',
                'powerade_1':'powerade',
                'Cepita_1':'Cepita',
                'Pepsi_1':'Pepsi',
                'Seven_U_1':'Seven U',
                'Tropicana_1':'Tropicana',
                'Quaker_1':'Quaker',
                'Lays_1':'Lays',
                'Doritos_1':'Doritos',
                'Cheetos_1':'Cheetos',
                'Gatorade_1':'Gatorade',
                'Paso_de_los_toros_1':'Paso De Los Toros',
                'Mirinda_1':'Mirinda',
                'H2OH!_1': 'H2OH!'
    
}

df = df.rename(columns=nuevas_marcas)

Ahora, una vez unificadas las columnas de productos, procederemos con el siguiente cambio. Si para un punto de venta una de las columnas referidas a una empresa tiene el número 1, entonces en una nueva columna creada con el nombre de dicha empresa se completará con el valor de 1; de lo contrario, se completará con 0. Esto nos brinda el mismo esquema que en la segunda etapa.

In [91]:
# Productos Mondelez
columnas_unificar=['Oreo', 'Cadbury', 'Milka', 'Toblerone', 'Halls', 'Tang', 'Club Social', 'Royal', 'Cligth', 'Terrabusi', 'Variedad', 'Beldent','Bubaloo']
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['mondelez_e'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [92]:
# Productos Arcor
columnas_unificar=['Criollitas', 'Diversion', 'Flics' ,'Formis', 'Cofler' ,'Hogareñas' ,'Kesitas',
 'La Campañola' ,'Macucas', 'Mana', 'Mellizas', 'Menthoplus' ,'Merengadas',
 'Mogul' ,'Mister Pops', 'Natural Break', 'Nerida' ,'Opera' ,'Poncho Negro',
 'Porteñitas' ,'Seven', 'Topline'
]
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['arcor_e'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [93]:
# Productos Georgalos
columnas_unificar=['Toddy', 'Flynpaff', 'Nucream', 'Full Mani',
 'Sin Azucares', 'Bazooka' ,'Palitos De La Selva', 'Flow Cereal',
 'Flynnies Yogur', 'Mantecol'
]
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['georgalos_e'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [94]:
# Productos Cigarrillos
columnas_unificar=['Philipp Morris', 'Malboro' ,'Lucky Strike',
 'Chesterfields', 'Red Point' ,'Melbour',
]
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['cigarillos_e'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [95]:
# Productos Quilmes
columnas_unificar=['Stella Artois', 'Quilmes',
 'Patagonia', 'Corona', 'Budweisser' ,'Brahma', 'Andes'
]
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['quilmes_e'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [96]:
# Productos Coca - cola
columnas_unificar=['Coca Cola', 'Fanta',
 'Sprite' ,'Schweppes' ,'powerade', 'Cepita'

]
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['cocacola_e'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [97]:
# Productos Pepsi
columnas_unificar=['Pepsi', 'Seven U', 'Tropicana',
 'Quaker', 'Lays' ,'Doritos' ,'Cheetos' ,'Gatorade', 'Paso De Los Toros',
 'Mirinda' ,'H2OH!'


]
df[columnas_unificar] = df[columnas_unificar].replace('N/A',0)
df[columnas_unificar] = df[columnas_unificar].fillna(0)
df[columnas_unificar] = df[columnas_unificar].astype(int)
df['pepsi_e'] = df[columnas_unificar].sum(axis=1)
df=df.drop(columnas_unificar,axis=1)

In [98]:
# tranformo los valores distintos a 0 en 1. 
columnas_a_modificar = [ 'arcor_e','georgalos_e','cigarillos_e','quilmes_e','cocacola_e','pepsi_e','mondelez_e']

for columna in columnas_a_modificar:
    df[columna] = df[columna].apply(lambda x: 1 if x > 1 else x)

In [99]:
df

Unnamed: 0,Fecha de inicio,Hora inicio,Coordenadas inicio,Fecha completado,Hora completado,Coordenadas fin,ID_censista,Nombre de persona de interés,IMEI del teléfono,Número de teléfono,Identificador del punto de interés,Nombre del punto de interés,Jerarquia 1 del punto de interés,Jerarquia 2 del punto de interés,Departamento del punto de interés,Dirección del punto de interés,Nombre contacto en punto de interés,Teléfono contacto en punto de interés,Provincia,Departamentos,Localidad,Tipo de Punto de Venta,Número de Polígono,Preguntas,Razón Social,CUIT,Papeles?,Canal,Cantidad de Cajas(Autoservicio),Cantidad de Góndolas(Autoservicio),Tiene Verdulería(Autoservicio),Tiene Fiambrería(Autoservicio),Heladeras con lacteos(Autoservicio),Heladeras con bebidas(Autoservicio),Cantidad de Exhibidores de primeras marcas(Almacen),Tiene surtido de vinos(Almacen),Tiene Heladera de lácteos(Almacen),Tiene gondola(Maxi Kiosco),"si tenga gondola, cuan llena esta?(Maxi Kiosco)",Tiene exhibidor de chicles/caramelos(Maxi Kiosco),cuan lleno esta?(Maxi Kiosco),No tiene servicios adicionales(Maxi Kiosco),Fotocopias(Maxi Kiosco),RapiPago(Maxi Kiosco),Tramites(Maxi Kiosco),SUBE(Maxi Kiosco),Cuan llena estan las estanterias(Kiosco Ventana),Comercializa chocolates(Vinoteca),Comercializa productos de kiosco(farmacia),Modalidad de Venta(Goloteca/Golsineria),Tabletas(Goloteca/Golsineria),Bombones(Goloteca/Golsineria),Alfajores(Goloteca/Golsineria),Chicles(Goloteca/Golsineria),Caramelos(Goloteca/Golsineria),Galletas(Goloteca/Golsineria),Cantidad de góndolas/estanterías(Dietetica),BC(Dietetica),Aguila(Dietetica),CerealMix(Dietetica),Turrón Arcor(Dietetica),Chocolate sin Azúcar Georgalos(Dietetica),Llenado de estanterías(Dietetica),Georgalos(Dietetica),Cigarros(Dietetica),Trabaja con?,Distribuidor,Frecuencia de Visita,Frecuencia de entrega,Se acerca un repositor de Mondelez?,Se acerca un repositor de la competencia?,"En caso de que sea otro, indicar con quien",Aplicaciones B2B,BEES,Serenisima,Massalin,Observaciones,Que servicios adicionales tiene,Cantidad_de_heladeras_1,Estado_de_Inmueble_1,Oportunidades,MDLZ_1,Arcor_1,mondelez_e,arcor_e,georgalos_e,cigarillos_e,quilmes_e,cocacola_e,pepsi_e
0,2023-09-22 13:11:14.360,2023-09-22 13:11:14.360,"-31.40063806312049600000,-64.17788129299879000000",2023-09-22 13:13:30.620,2023-09-22 13:13:30.620,"-31.40055740000000000000,-64.17788640000000000000",95882179,Jairo Alvarez,2.309221e+14,3513608369,PUO-586376,Punto de venta Falso Jairo,,,,Calle falsa 123,,,Córdoba,Capital,Córdoba,Kiosco Ventana,,,Kiosko falso,12345678912.0,No,Kiosco Ventana,,,,,,,,,,,,,,,,,,,50%,,,,,,,,,,,,,,,,,1.0,1.0,Distribuidor,Dlv,1 vez por semana,1 vez por semana,No,Si,,Si,1.0,1.0,1.0,,,0,En condiciones aceptables,0,1,1,1,1,1,1,1,1,1
1,2023-09-22 13:12:13.380,2023-09-22 13:12:13.380,"-33.12970171598299600000,-64.34739556163550000000",2023-09-22 13:15:32.283,2023-09-22 13:15:32.283,"-33.12964630000000000000,-64.34752060000000000000",27895672,Cristian Frias,2.309221e+14,3513973955,PU -984469,Punto de venta falso Cristian,,,,Alberdi 1240,,,Córdoba,Río Cuarto,Rio Cuarto,Almacén,,,Amiri,,Si,Almacén,,,,,,,1,Si,Si,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,1.0,Distribuidor,AyV Lopez,1 vez por semana,1 vez por semana,No,No,,No,,,,,,2,Ordenado y Limpio,0,1,1,1,1,1,1,1,1,1
2,2023-10-02 08:07:43.903,2023-10-02 08:07:43.903,"-33.13460694888710000000,-64.34980787336826000000",2023-10-02 08:08:09.340,2023-10-02 08:08:09.340,"-33.13447960000000000000,-64.34935790000000000000",27895672,Cristian Frias,2.309221e+14,3513973955,MOS-290036,Morales,Verdulería,,Córdoba,Irigoyen y Mansilla,,,Córdoba,Río Cuarto,Rio Cuarto,Verdulería,,,Morales,,Si,Verdulería,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,0,0,0,0,0,0,0,0,0,0
3,2023-10-02 08:08:41.727,2023-10-02 08:08:41.727,"-33.13446713206605000000,-64.34955976903439000000",2023-10-02 08:11:20.127,2023-10-02 08:11:20.127,"-33.13449750000000000000,-64.34940190000000000000",27895672,Cristian Frias,2.309221e+14,3513973955,AL -194025,Alaniz,Almacén,,Córdoba,Mansilla E Irigoyen,,,Córdoba,Río Cuarto,Rio Cuarto,Almacén,,,Alanniz,,Si,Almacén,,,,,,,1,Si,No,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,0.0,Distribuidor,AyV Lopez,1 vez por semana,1 vez por semana,No,No,,No,,,,,,1,En condiciones aceptables,0,1,1,1,1,1,0,1,1,1
4,2023-10-02 08:15:28.427,2023-10-02 08:15:28.427,"-33.13371750796244400000,-64.34930227696896000000",2023-10-02 08:17:46.910,2023-10-02 08:17:46.910,"-33.13370490000000000000,-64.34931580000000000000",27895672,Cristian Frias,2.309221e+14,3513973955,PA -860869,Pago Fácil y Quiniela,Maxi Kiosco,,Córdoba,Irigoyen 1683,,,Córdoba,Río Cuarto,Rio cuarto,Maxi Kiosco,,,,,Si,Maxi Kiosco,,,,,,,,,,Si,50%,No,,0.0,1.0,1.0,0.0,0.0,,,,,,,,,,,,,,,,,,1.0,0.0,Distribuidor,AyV López,1 vez por semana,1 vez por semana,No,No,,No,,,,,,1,En condiciones aceptables,0,1,1,1,1,1,0,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29196,2023-12-12 12:36:18.953,2023-12-12 12:36:18.953,"-28.45158238549127500000,-65.78902490437031000000",2023-12-12 12:52:31.387,2023-12-12 12:52:31.387,"-28.45140360000000000000,-65.78781310000000000000",CT-174616,Lautaro Segura,2.308111e+14,1121885018,AL1-595129,Almacen 1,Almacén,,Catamarca,Valle Viejo 86,,,Catamarca,San Fernando,San Fernando del Valle de Catamarca,Almacén,,,Candela ruiz,20678745756.0,Si,Almacén,,,,,,,1,Si,Si,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,1.0,Mayorista,,,,,,,Si,1.0,1.0,1.0,,,3,Ordenado y Limpio,0,1,1,1,1,1,1,1,1,1
29197,2023-12-12 13:17:52.703,2023-12-12 13:17:52.703,"-28.45969033406645000000,-65.77573288232088000000",2023-12-12 13:18:50.177,2023-12-12 13:18:50.177,"-28.45938500000000000000,-65.77571830000000000000",CT-174616,Lautaro Segura,2.308111e+14,1121885018,VEA-850587,Verduleria,Verdulería,,Catamarca,Archeverroa,,,Catamarca,Capital,Capital,Verdulería,,,Ruben toloza,,Si,Verdulería,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,0,0,0,0,0,0,0,0,0,0
29198,2023-12-12 13:20:12.497,2023-12-12 13:20:12.497,"-28.46031050492335000000,-65.77528327703476000000",2023-12-12 13:22:00.787,2023-12-12 13:22:00.787,"-28.45938500000000000000,-65.77571830000000000000",CT-174616,Lautaro Segura,2.308111e+14,1121885018,COO-335868,Cocodrilo,Bar,,Catamarca,Av belgrano,,,Catamarca,Capital,Capital,Bar,,,Ramon sampayo,,Si,Bar,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,0,0,0,0,0,0,0,0,0,0
29199,2023-12-12 13:22:49.123,2023-12-12 13:22:49.123,"-28.46033644354911700000,-65.77534262090921000000",2023-12-12 13:26:38.020,2023-12-12 13:26:38.020,"-28.45938500000000000000,-65.77571830000000000000",CT-174616,Lautaro Segura,2.308111e+14,1121885018,"MA,-621094","Maxi kiosko,",Maxi Kiosco,,Catamarca,Av belgrano,,,Catamarca,Capital,Capital,Maxi Kiosco,,,Bastian coronel,20678432123.0,Si,Maxi Kiosco,,,,,,,,,,No,,Si,100%,0.0,0.0,0.0,0.0,1.0,,,,,,,,,,,,,,,,,,1.0,1.0,Mayorista,,,,,,,Si,1.0,1.0,0.0,,,3,Ordenado y Limpio,0,1,1,1,1,1,1,1,1,1


Como podemos observar, hemos pasado de tener 29,201 filas y 442 columnas a 29,201 filas × 90 columnas. Esto ha reducido el tamaño de nuestro dataset y no hemos perdido ningún registro. Una vez transformada nuestra primera tabla, procedemos a cargar los datos de diciembre con el formato de la segunda etapa.

In [100]:
df1 = pd.read_excel("Reportes de tareas completadas-Censo 2024-30.xlsx")
df2 = pd.read_excel("Reportes de tareas completadas-Recenso Diciembre-25.xlsx")
df3 = pd.read_excel("Reportes de tareas completadas-Recenso Febrero-27.xlsx")
df4 = pd.read_excel("Reportes de tareas completadas-Recenso Merlo-26.xlsx")
df5 = pd.read_excel("Reportes de tareas completadas-Recenso Moreno-29.xlsx")
df6 = pd.read_excel("Reportes de tareas completadas-Relevamiento Diciembre-24.xlsx")
df7 = pd.read_excel("Reportes de tareas completadas-Relevamiento Febrero-28.xlsx")


In [101]:
print(df1.shape)
print(df2.shape)
print(df3.shape)
print(df4.shape)
print(df5.shape)
print(df6.shape)
print(df7.shape)

(2055, 89)
(133, 89)
(33, 89)
(1646, 89)
(1366, 89)
(3901, 89)
(130, 89)


In [102]:
#cambio de nombres
nuevos_nombres = {'Cantidad de Cajas': 'Cantidad de Cajas(Autoservicio)',
                  'Cantidad de Góndolas': 'Cantidad de Góndolas(Autoservicio)',
                  'Tiene Verdulería': 'Tiene Verdulería(Autoservicio)',
                  'Tiene Fiambrería': 'Tiene Fiambrería(Autoservicio)',
                  'Heladeras con lacteos': 'Heladeras con lacteos(Autoservicio)',
                  'Heladeras con bebidas': 'Heladeras con bebidas(Autoservicio)',
                  'Cantidad de Exhibidores de primeras marcas (Lays/Gaseosas/Cervezas)': 'Cantidad de Exhibidores de primeras marcas(Almacen)',
                  'Tiene surtido de vinos': 'Tiene surtido de vinos(Almacen)',
                  'Tiene Heladera de lácteos': 'Tiene Heladera de lácteos(Almacen)',
                  'Tiene gondola': 'Tiene gondola(Maxi Kiosco)',
                  'En caso de que si tenga gondola, cuan llena esta?': 'si tenga gondola, cuan llena esta?(Maxi Kiosco)',
                  'Tiene exhibidor de chicles/caramelos': 'Tiene exhibidor de chicles/caramelos(Maxi Kiosco)',
                  'En caso de tener exhibidor de chicles/caramelos, cuan lleno esta?': 'cuan lleno esta?(Maxi Kiosco)',
                  'No tiene servicios adicionales': 'No tiene servicios adicionales(Maxi Kiosco)',
                  'Fotocopias': 'Fotocopias(Maxi Kiosco)',
                  'RapiPago': 'RapiPago(Maxi Kiosco)',
                  'Tramites': 'Tramites(Maxi Kiosco)',
                  'SUBE': 'SUBE(Maxi Kiosco)',
                 'Cuan llena estan las estanterias': 'Cuan llena estan las estanterias(Kiosco Ventana)',
                 'Comercializa chocolates': 'Comercializa chocolates(Vinoteca)',
                  'Comercializa productos de kiosco': 'Comercializa productos de kiosco(farmacia)',
                  'Modalidad de Venta': 'Modalidad de Venta(Goloteca/Golsineria)',
                  'Tabletas': 'Tabletas(Goloteca/Golsineria)',
                  'Bombones': 'Bombones(Goloteca/Golsineria)',
                  'Alfajores': 'Alfajores(Goloteca/Golsineria)',
                  'Chicles': 'Chicles(Goloteca/Golsineria)',
                  'Caramelos': 'Caramelos(Goloteca/Golsineria)',
                  'Galletas': 'Galletas(Goloteca/Golsineria)',
                  'Cantidad de góndolas/estanterías': 'Cantidad de góndolas/estanterías(Dietetica)',
                 'BC': 'BC(Dietetica)',
                  'Aguila': 'Aguila(Dietetica)',
                  'CerealMix': 'CerealMix(Dietetica)',
                  'Turrón Arcor': 'Turrón Arcor(Dietetica)',
                  'Chocolate sin Azúcar Georgalos': 'Chocolate sin Azúcar Georgalos(Dietetica)',
                  'Llenado de estanterías': 'Llenado de estanterías(Dietetica)',
                  'Georgalos': 'georgalos_e',
                  'Cigarros': 'cigarillos_e',
                  'Identificador de persona de interés': 'ID_censista',
                  'Mondelez': 'MDLZ_1',
                  'Arcor': 'Arcor_1',
                  'Arcor8':'arcor_e',
                  'Mondelez9':'mondelez_e',
                  'Coca Cola':'cocacola_e',
                  'Quilmes':'quilmes_e',
                  'Pepsi':'pepsi_e',
                  'Cigarrillos':'cigarillos_e',
                  'mkm ':'mkm',
                  'mkm ':'mkm',
                  'delez ':'delez'
                  
                  
                  }
df1 = df1.rename(columns=nuevos_nombres)
df2 = df2.rename(columns=nuevos_nombres)
df3 = df3.rename(columns=nuevos_nombres)
df4 = df4.rename(columns=nuevos_nombres)
df5 = df5.rename(columns=nuevos_nombres)
df6 = df6.rename(columns=nuevos_nombres)
df7 = df7.rename(columns=nuevos_nombres)

In [103]:
#Concatenamos las tablas
dfs = pd.concat([ df1, df2, df3, df4, df5, df6, df7], ignore_index=True)

In [104]:
print(dfs.shape)

(9264, 89)


In [105]:
# unificamos columnas.
columnas_unificar = ['Cantidad de Heladeras visibles','Cantidad de Heladeras3' ,'Cantidad de heladeras','Cantidad de heladeras6']
dfs[columnas_unificar] = dfs[columnas_unificar].replace('N/A', 0)
# Reemplazar '3 o más' por 3
dfs[columnas_unificar] =dfs[columnas_unificar].replace('3 o más', 3)
dfs[columnas_unificar] = dfs[columnas_unificar].fillna(0)
dfs[columnas_unificar] = dfs[columnas_unificar].astype(int)
dfs['Cantidad_de_heladeras_1'] = dfs[columnas_unificar].sum(axis=1)
dfs = dfs.drop(columnas_unificar, axis=1)

In [106]:
columnas_unificar = ['Estado de Inmueble','Estado de Inmueble2','Estado de Inmueble7','Estado de inmueble4','Estado del inmueble','Estado del inmueble5']
for columna in columnas_unificar:
    dfs[columna] = dfs[columna].replace('N/A', ' ').fillna(' ')

dfs['Estado_de_Inmueble_1'] = dfs[columnas_unificar].sum(axis=1)
dfs = dfs.drop(columnas_unificar, axis=1)

In [107]:
remplazos={'   Ordenado y Limpio ':'Ordenado y Limpio',
    ' Ordenado y Limpio   ':'Ordenado y Limpio',
    'Ordenado y limpio    ':'Ordenado y Limpio',
    '  Ordenado y Limpio  ':'Ordenado y Limpio',
    '    Ordenado y Limpio':'Ordenado y Limpio',
    '   En condiciones aceptables ':'En condiciones aceptables',
    ' En condiciones aceptables   ':'En condiciones aceptables',
    '  En condiciones aceptables  ':'En condiciones aceptables',
    'En condiciones aceptables    ':'En condiciones aceptables',
    '    En condiciones aceptables':'En condiciones aceptables',
    '   En condiciones aceptables ':'En condiciones aceptables',
    '   En condiciones aceptables ':'En condiciones aceptables',
    '   Precario ':'Precario',
    ' Precario   ':'Precario',
    'Precario    ':'Precario',
    '    Precario':'Precario',
    '  Precario  ':'Precario',   
    'Ordenado y Limpio    ':'Ordenado y Limpio',
    '    Ordenado y limpio':'Ordenado y limpio',
    'Ordenado y limpio':'Ordenado y Limpio',
    '   En condiciones aceptables   ':'En condiciones aceptables',
    'Ordenado y Limpio      ':'Ordenado y Limpio',
    '     Ordenado y Limpio ':'Ordenado y Limpio',
    'Ordenado y Limpio ':'Ordenado y Limpio',
    '      Ordenado y Limpio':'Ordenado y Limpio',
    'En condiciones aceptables      ':'En condiciones aceptables',
    '      En condiciones aceptables':'En condiciones aceptables',
    '     En condiciones aceptables ':'En condiciones aceptables',
    ' En condiciones aceptables  En condiciones aceptables  ':'En condiciones aceptables',
    ' Ordenado y limpio  Ordenado y limpio  ':'Ordenado y Limpio',
    '   Ordenado y Limpio   ':'Ordenado y Limpio',
    '      Precario':'Precario',
    'Precario      ':'Precario',
    '  Ordenado y Limpio    ':'Ordenado y Limpio',
    ' Precario  Precario  ':'Precario',
    '     Precario ':'Precario',
    'Precario ':'Precario',
    '   Ordenado y Limpio  ':'Ordenado y Limpio',
    '     En condiciones aceptables':'En condiciones aceptables',
    '   En condiciones aceptables  ':'En condiciones aceptables',
    '     Ordenado y Limpio':'Ordenado y Limpio',
    '  Ordenado y Limpio   ':'Ordenado y Limpio',
    '  En condiciones aceptables   ':'En condiciones aceptables',
    '    Ordenado y limpio ':'Ordenado y limpio',
    ' Ordenado y Limpio    ':'Ordenado y Limpio',
    '     Precario':'Precario',
    'Ordenado y Limpio     ':'Ordenado y Limpio',
    ' En condiciones aceptables    ':'En condiciones aceptables',
    '    En condiciones aceptables ':'En condiciones aceptables',
    '   Precario  ':'Precario',
    '  Precario   ':'Precario',
    '    Precario ':'Precario',
    'En condiciones aceptables     ':'En condiciones aceptables',
    'Precario     ':'Precario',
    ' Precario    ':'Precario',
    'Ordenado y limpio':'Ordenado y Limpio',
    'Ordenado y limpio':'Ordenado y Limpio',
    'Ordenado y limpio':'Ordenado y Limpio',
    '    Ordenado y Limpio ':'Ordenado y Limpio',
    'Ordenado y limpio     ':'Ordenado y Limpio'
}

    # Aplicar el mapeo a la columna 'Localidad'
dfs['Estado_de_Inmueble_1'] = dfs['Estado_de_Inmueble_1'].replace(remplazos)

# Verificar los valores únicos después del mapeo
valores_unicos = dfs['Estado_de_Inmueble_1'].unique()
print(valores_unicos)

['En condiciones aceptables' '      ' 'Ordenado y Limpio' 'Precario']


In [108]:
import re

#  lista de palabras clave
palabras_clave = [ 'visita', 'preventista', 'mondelez', 'vendedor', 'delez','interesa']

# Función para buscar patrones en una observación
def buscar_patrones(observacion):
    if isinstance(observacion, str):
        observacion = observacion.lower()  # Convertir la observación a minúsculas
        for palabra in palabras_clave:
            patron = r'\b' + palabra + r'\w*'  # Usamos \w* para permitir cualquier carácter después de la palabra clave
            if re.search(patron, observacion):
                return 1
    return 0

# Aplicar la función a la columna "Observaciones" y crear la columna "Oportunidades"

# Aplicar la función a la columna "Observaciones" y crear la columna "Oportunidades"
dfs['Oportunidades'] = dfs['Observaciones'].apply(buscar_patrones)

In [109]:
print(dfs.shape)
print(df.shape)

(9264, 82)
(29201, 90)


Ahora realizaremos la unión de todos los datos, tanto los transformados de la primera etapa como los actuales de la primera etapa. A esta concatenación la denominaremos `df_tareas`, ya que hasta el momento nos hemos enfocado solo en el reporte de tareas.

In [110]:
df_tareas = pd.concat([dfs, df], ignore_index=True)


In [111]:
df_tareas.shape

(38465, 90)

Como podemos observar, no hemos perdido ningún dato (registro). Ahora analizaremos la diferencia de columnas entre una tabla y otra.

In [112]:
# Obtener las columnas de cada dataframe
cols_dfs = set(dfs.columns)
cols_df = set(df.columns)

# Identificar las columnas diferentes
different_columns = cols_dfs.symmetric_difference(cols_df)

print("Columnas con nombres diferentes:")
for col in different_columns:
    if col in cols_dfs and col not in cols_df:
        print(f"Columna '{col}' está en 'dfs' pero no en 'df'")
    elif col in cols_df and col not in cols_dfs:
        print(f"Columna '{col}' está en 'df' pero no en 'dfs'")


Columnas con nombres diferentes:
Columna 'Chocolate sin Azúcar Georgalos(Dietetica)' está en 'df' pero no en 'dfs'
Columna 'Georgalos(Dietetica)' está en 'df' pero no en 'dfs'
Columna 'Que servicios adicionales tiene' está en 'df' pero no en 'dfs'
Columna 'Aguila(Dietetica)' está en 'df' pero no en 'dfs'
Columna 'Cigarros(Dietetica)' está en 'df' pero no en 'dfs'
Columna 'CerealMix(Dietetica)' está en 'df' pero no en 'dfs'
Columna 'BC(Dietetica)' está en 'df' pero no en 'dfs'
Columna 'Turrón Arcor(Dietetica)' está en 'df' pero no en 'dfs'


Las columnas que no comparten ambas tablas son aquellas que representan al canal de comercialización "Dietética". Esto se debe a cambios en la estructura de preguntas a lo largo del tiempo. Por el momento, dejaremos el reporte de tareas almacenado en una variable llamada `df_tareas`. A continuación, nos centraremos en el reporte de entrada y salida, así como en el reporte de observaciones.

ahora cargamos los reportes de entrada y salida manual junto con el reporte de observaciones. 

In [113]:
df_observaciones = pd.read_excel("Reporte de Observaciones 010823 - 010724.xlsx")
df_entrada_salida = pd.read_excel("Reporte de Visitas - Marcas manuales.xlsx",sheet_name="DB")

In [114]:
print(df_observaciones.shape)
print(df_entrada_salida.shape)

(5497, 9)
(45306, 36)


Lo que realizaremos ahora es observar la lógica con la que se nos explicó el funcionamiento de los distintos reportes. Técnicamente, el reporte de tareas conserva solo los datos de los locales efectivamente censados, mientras que el reporte de observaciones contiene información de locales con circunstancias particulares, como aquellos que estaban cerrados, rechazaban la encuesta o proporcionaban poca información. Por otra parte, contamos con el reporte de entrada y salida manual. Este reporte funciona como un lago de datos que incluye todas las instancias, tanto aquellas que se encuentran solo en el reporte de observaciones como aquellas en el reporte de tareas. De esta forma, podemos deducir que cualquier identificador único de local (PDVID) que se encuentre tanto en el reporte de tareas como en el reporte de observaciones puede no estar presente en el reporte de entrada y salida manual.

In [115]:

# Convertir las columnas de identificadores a conjuntos para verificar la inclusión
set_tareas = set(df_tareas['Identificador del punto de interés'])
set_entrada_salida = set(df_entrada_salida['Identificador de Punto de Interés'])
set_observaciones = set(df_observaciones['Identificador Punto de interés'])

# Calcular las diferencias entre los conjuntos
no_coincidencias_tareas_entrada_salida = set_tareas - set_entrada_salida
no_coincidencias_observaciones_entrada_salida = set_observaciones - set_entrada_salida
no_coincidencias_observaciones_tareas = set_observaciones - set_tareas

# Contar el número de no coincidencias
num_no_coincidencias_tareas_entrada_salida = len(no_coincidencias_tareas_entrada_salida)
num_no_coincidencias_observaciones_entrada_salida = len(no_coincidencias_observaciones_entrada_salida)
num_no_coincidencias_observaciones_tareas = len(no_coincidencias_observaciones_tareas)

print(f"Número de identificadores en df_tareas que no están en df_entrada_salida: {num_no_coincidencias_tareas_entrada_salida}")
print(f"Número de identificadores en df_observaciones que no están en df_entrada_salida: {num_no_coincidencias_observaciones_entrada_salida}")
print(f"Número de identificadores en df_observaciones que no están en df_tareas: {num_no_coincidencias_observaciones_tareas}")

# Calcular la intersección entre df_observaciones y df_entrada_salida
coincidencias_observaciones_entrada_salida = set_observaciones & set_entrada_salida

# Contar el número de coincidencias
num_coincidencias_observaciones_entrada_salida = len(coincidencias_observaciones_entrada_salida)

print(f"Número de identificadores en df_observaciones que están en df_entrada_salida: {num_coincidencias_observaciones_entrada_salida}")


Número de identificadores en df_tareas que no están en df_entrada_salida: 158
Número de identificadores en df_observaciones que no están en df_entrada_salida: 8
Número de identificadores en df_observaciones que no están en df_tareas: 4371
Número de identificadores en df_observaciones que están en df_entrada_salida: 5335


Como podemos observar, esta lógica no está completamente clara. Si bien esto no afectará al resultado final de la base de datos, indica posibles fallos en la estructura lógica con la que se diseñó la arquitectura de la base de datos, o en las distintas consultas que se fueron programando a lo largo del tiempo para obtener los reportes desde la página web de Randstad.

In [116]:
# Convertir las columnas de identificadores a conjuntos para verificar la inclusión
set_tareas = set(df_tareas['Identificador del punto de interés'])
set_entrada_salida = set(df_entrada_salida['Identificador de Punto de Interés'])

# Calcular las diferencias entre los conjuntos
no_coincidencias_tareas_entrada_salida = set_tareas - set_entrada_salida

# Filtrar df_tareas para obtener las filas que corresponden a los identificadores que no están en df_entrada_salida
subdataset_tareas_no_entrada_salida = df_tareas[df_tareas['Identificador del punto de interés'].isin(no_coincidencias_tareas_entrada_salida)]

# Mostrar el subdataset resultante
print("Subdataset de identificadores en df_tareas que no están en df_entrada_salida:")
print(subdataset_tareas_no_entrada_salida)
print(f"Total registros en subdataset_tareas_no_entrada_salida: {len(subdataset_tareas_no_entrada_salida)}")


Subdataset de identificadores en df_tareas que no están en df_entrada_salida:
              Fecha de inicio             Hora inicio  \
1857  2024-06-25 16:54:42.790 2024-06-25 16:54:42.790   
2019  2024-07-01 09:04:28.247 2024-07-01 09:04:28.247   
2020  2024-07-01 09:15:03.870 2024-07-01 09:15:03.870   
2021  2024-07-01 09:19:55.813 2024-07-01 09:19:55.813   
2022  2024-07-01 09:25:08.503 2024-07-01 09:25:08.503   
...                       ...                     ...   
9131  2024-01-11 10:47:00.000 2024-01-11 10:47:00.000   
9132  2024-01-11 10:47:00.000 2024-01-11 10:47:00.000   
9133  2024-01-11 10:48:00.000 2024-01-11 10:48:00.000   
9360  2023-08-24 12:28:25.753 2023-08-24 12:28:25.753   
25655 2023-10-30 13:28:26.820 2023-10-30 13:28:26.820   

                                      Coordenadas inicio  \
1857   -34.48410767766830000000,-58.50357960909605000000   
2019   -32.47076734572545000000,-58.25861848890781400000   
2020   -32.47297929072177000000,-58.25902316719293600000 

In [117]:
subdataset_tareas_no_entrada_salida

Unnamed: 0,Fecha de inicio,Hora inicio,Coordenadas inicio,Fecha completado,Hora completado,Coordenadas fin,ID_censista,Nombre de persona de interés,IMEI del teléfono,Número de teléfono,Identificador del punto de interés,Nombre del punto de interés,Jerarquia 1 del punto de interés,Jerarquia 2 del punto de interés,Departamento del punto de interés,Dirección del punto de interés,Nombre contacto en punto de interés,Teléfono contacto en punto de interés,Provincia,Departamentos,Localidad,Tipo de Punto de Venta,Número de Polígono,Preguntas,Razón Social,CUIT,Papeles?,Canal,Cantidad de Cajas(Autoservicio),Cantidad de Góndolas(Autoservicio),Tiene Verdulería(Autoservicio),Tiene Fiambrería(Autoservicio),Heladeras con lacteos(Autoservicio),Heladeras con bebidas(Autoservicio),Cantidad de Exhibidores de primeras marcas(Almacen),Tiene surtido de vinos(Almacen),Tiene Heladera de lácteos(Almacen),Tiene gondola(Maxi Kiosco),"si tenga gondola, cuan llena esta?(Maxi Kiosco)",Tiene exhibidor de chicles/caramelos(Maxi Kiosco),cuan lleno esta?(Maxi Kiosco),No tiene servicios adicionales(Maxi Kiosco),Fotocopias(Maxi Kiosco),RapiPago(Maxi Kiosco),Tramites(Maxi Kiosco),SUBE(Maxi Kiosco),Cuan llena estan las estanterias(Kiosco Ventana),Comercializa chocolates(Vinoteca),Comercializa productos de kiosco(farmacia),Modalidad de Venta(Goloteca/Golsineria),Tabletas(Goloteca/Golsineria),Bombones(Goloteca/Golsineria),Alfajores(Goloteca/Golsineria),Chicles(Goloteca/Golsineria),Caramelos(Goloteca/Golsineria),Galletas(Goloteca/Golsineria),Cantidad de góndolas/estanterías(Dietetica),Llenado de estanterías(Dietetica),Trabaja con?,Distribuidor,Frecuencia de Visita,Frecuencia de entrega,Se acerca un repositor de Mondelez?,Se acerca un repositor de la competencia?,"En caso de que sea otro, indicar con quien",Aplicaciones B2B,MDLZ_1,Arcor_1,BEES,Serenisima,Massalin,arcor_e,georgalos_e,quilmes_e,pepsi_e,cocacola_e,cigarillos_e,mondelez_e,Observaciones,Cantidad_de_heladeras_1,Estado_de_Inmueble_1,Oportunidades,BC(Dietetica),Aguila(Dietetica),CerealMix(Dietetica),Turrón Arcor(Dietetica),Chocolate sin Azúcar Georgalos(Dietetica),Georgalos(Dietetica),Cigarros(Dietetica),Que servicios adicionales tiene
1857,2024-06-25 16:54:42.790,2024-06-25 16:54:42.790,"-34.48410767766830000000,-58.50357960909605000000",2024-06-25 17:02:07.427,2024-06-25 17:02:07.427,"-34.48408750000000000000,-58.50387650000000000000",RZ-187974,Ricardo Zorkendorfer,2.402292e+14,1159111825,KIO-154873,Kiosko,Maxi Kiosco,,Buenos Aires,Santa fe 1308,,,Buenos Aires,San Isidro,Martinez,Maxi Kiosco,8.0,,,,No,Maxi Kiosco,,,,,,,,,,Si,50%,Si,50%,0.0,0.0,0.0,0.0,1.0,,,,,,,,,,,,,Otro,,,,,,No posee esa informacion,No,,,,,,1.0,1.0,0.0,0.0,1.0,1.0,1.0,,3,Ordenado y Limpio,0,,,,,,,,
2019,2024-07-01 09:04:28.247,2024-07-01 09:04:28.247,"-32.47076734572545000000,-58.25861848890781400000",2024-07-01 09:04:51.720,2024-07-01 09:04:51.720,"-32.47085230000000000000,-58.25863320000000000000",JR-158291,Jose Maria Ratto Enrique,2.406191e+14,3442498815,KIO-295630,Kiosko,Kiosco Ventana,,Entre Rios,12 del norte 1017,,,Entre Ríos,Concepción,Concepcion del uruguay,Kiosco Ventana,19.0,,,,No,Kiosco Ventana,,,,,,,,,,,,,,,,,,,50%,,,,,,,,,,,,,,,,,,,No,,,,,,1.0,0.0,1.0,1.0,1.0,1.0,0.0,,1,En condiciones aceptables,0,,,,,,,,
2020,2024-07-01 09:15:03.870,2024-07-01 09:15:03.870,"-32.47297929072177000000,-58.25902316719293600000",2024-07-01 09:15:40.010,2024-07-01 09:15:40.010,"-32.47300670000000000000,-58.25892680000000000000",JR-158291,Jose Maria Ratto Enrique,2.406191e+14,3442498815,DEO-563650,Despensa el pato,Almacén,,Entre Rios,Allais 1952,,,Entre Ríos,Concepción,Concepcion del uruguay,Almacén,19.0,,,,No,Almacén,,,,,,,1,Si,Si,,,,,,,,,,,,,,,,,,,,,,Mayorista,,,,,,,No,,,,,,1.0,0.0,1.0,1.0,1.0,1.0,1.0,,1,En condiciones aceptables,0,,,,,,,,
2021,2024-07-01 09:19:55.813,2024-07-01 09:19:55.813,"-32.47291932566613000000,-58.25966455042362000000",2024-07-01 09:20:19.173,2024-07-01 09:20:19.173,"-32.47296930000000000000,-58.25959770000000000000",JR-158291,Jose Maria Ratto Enrique,2.406191e+14,3442498815,KIO-016649,Kiosko,Kiosco Ventana,,Entre Rios,Allais 1988,,,Entre Ríos,Concepción,Concepcion del uruguay,Kiosco Ventana,19.0,,,,No,Kiosco Ventana,,,,,,,,,,,,,,,,,,,75%,,,,,,,,,,,,Mayorista,,,,,,,No,,,,,,1.0,0.0,1.0,1.0,1.0,1.0,1.0,,2,En condiciones aceptables,0,,,,,,,,
2022,2024-07-01 09:25:08.503,2024-07-01 09:25:08.503,"-32.47162101584748000000,-58.25930949300528000000",2024-07-01 09:25:29.517,2024-07-01 09:25:29.517,"-32.47167710000000000000,-58.25938020000000000000",JR-158291,Jose Maria Ratto Enrique,2.406191e+14,3442498815,KIO-000168,Kiosko,Kiosco Ventana,,Entre Rios,Marco 1940,,,Entre Ríos,Concepción,Concepcion del uruguay,Kiosco Ventana,19.0,,,,No,Kiosco Ventana,,,,,,,,,,,,,,,,,,,75%,,,,,,,,,,,,,,,,,,,No,,,,,,1.0,0.0,1.0,1.0,1.0,1.0,0.0,,1,En condiciones aceptables,0,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9131,2024-01-11 10:47:00.000,2024-01-11 10:47:00.000,Sin información,2024-01-11 10:41:10.013,2024-01-11 10:41:10.013,Sin información,RI-318761,Ramiro Iglesias (CARGA WEB),2.207262e+14,121212,Carga web047,Escuela N°64,Escuelas,,Buenos Aires,Estanislao del Campo 3106,,,Buenos Aires,Merlo,Merlo,Escuelas,,,,,No,Escuelas,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,0,,,,,,,,
9132,2024-01-11 10:47:00.000,2024-01-11 10:47:00.000,Sin información,2024-01-11 10:41:35.343,2024-01-11 10:41:35.343,Sin información,RI-318761,Ramiro Iglesias (CARGA WEB),2.207262e+14,121212,carga web048,Escuela N°76,Escuelas,,Buenos Aires,Garmendia y Belén,,,Buenos Aires,Merlo,Merlo,Escuelas,,,,,No,Escuelas,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,0,,,,,,,,
9133,2024-01-11 10:48:00.000,2024-01-11 10:48:00.000,Sin información,2024-01-11 10:42:44.443,2024-01-11 10:42:44.443,Sin información,RI-318761,Ramiro Iglesias (CARGA WEB),2.207262e+14,121212,carga web049,Kiosco Susy,Kiosco Ventana,,Buenos Aires,Tartagal 1390,,,Buenos Aires,Merlo,Merlo,Kiosco Ventana,,,,,No,Kiosco Ventana,,,,,,,,,,,,,,,,,,,100%,,,,,,,,,,,,Otro,,,,,,"Familiar, no tenía información",No,,,,,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,,2,En condiciones aceptables,0,,,,,,,,
9360,2023-08-24 12:28:25.753,2023-08-24 12:28:25.753,"-31.53354278482648000000,-68.53211402893066000000",2023-08-24 12:29:07.303,2023-08-24 12:29:07.303,"-31.53364330000000000000,-68.53178000000000000000",38459497.,Gaspar. Martinez.,2.308112e+14,1121887187.,SIN-324513,Simon,Bar,,San Juan,Esquina san luis y alem,,,San Juan,Capital,San Juan,Bar,,,No info,No info,Si,Bar,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.0,0.0,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0,,0,,,,,,,,


In [118]:
entrada =df_entrada_salida.columns.tolist()
print(entrada)

['Identificador Persona de interés', 'Nombre de Persona de interés', 'Número de celular', 'IMEI', 'Identificador de Punto de Interés', 'Nombre de Punto de interés', 'Dirección', 'Departamento', 'Jerarquía nivel 1', 'Jerarquía nivel 2', 'Fecha/Hora Entrada', 'Fecha/Hora Salida', 'Tiempo transcurrido', '¿Realizó alguna acción? Llámese tareas, control de sku, observaciones, etc', 'Coordenadas de salida', 'Identificador Punto de interés salida', 'Nombre Punto de interés salida', 'Foto de entrada', 'Foto de salida', 'Editado', 'Tipo de Punto de Venta', 'Provincia', 'Departamentos', 'Localidad', 'Número de Polígono', 'Nombre', 'Dirección.1', 'Nombre de contacto', 'Teléfono de contacto', 'Departamento.1', 'Agrupaciones', 'Jerarquía nivel 1.1', 'Jerarquía nivel 2.1', 'E-mails', 'Imagen', 'Ventana horaria']


In [119]:
df_entrada_salida

Unnamed: 0,Identificador Persona de interés,Nombre de Persona de interés,Número de celular,IMEI,Identificador de Punto de Interés,Nombre de Punto de interés,Dirección,Departamento,Jerarquía nivel 1,Jerarquía nivel 2,Fecha/Hora Entrada,Fecha/Hora Salida,Tiempo transcurrido,"¿Realizó alguna acción? Llámese tareas, control de sku, observaciones, etc",Coordenadas de salida,Identificador Punto de interés salida,Nombre Punto de interés salida,Foto de entrada,Foto de salida,Editado,Tipo de Punto de Venta,Provincia,Departamentos,Localidad,Número de Polígono,Nombre,Dirección.1,Nombre de contacto,Teléfono de contacto,Departamento.1,Agrupaciones,Jerarquía nivel 1.1,Jerarquía nivel 2.1,E-mails,Imagen,Ventana horaria
0,SC-398026.,Soledad Castillos,1121884796.,3.561931e+14,A -372676,Al Estilo familiar,Dumas 2211,,,,14/11/2023 12:26,,1900-01-02 00:00:00,No,"-34.68017110000000000000,-58.76672870000000000000",,,,,False,Pollería,Buenos Aires,Merlo,Barruo samore,,,,,,,,,,,,
1,TR-465554,Tobias Rodríguez,1159111806,2.402292e+14,A -966566,almacén Ricardo rojas,Ricardo rojas 4078,Buenos Aires,Almacén,,11/06/2024 12:48,11/06/2024 12:48,00:00:01,No,"-34.52337710000000000000,-58.54386530000000000000",,,,,False,Almacén,Buenos Aires,Vicente López,Villa adelina,25.0,,,,,,,,,,,
2,PG-694681,Pablo Galeano,1132712150,2.308251e+14,B -101700,Borges Market,Borges 799,Buenos Aires,,,13/12/2023 14:46,13/12/2023 14:47,00:00:11,Si,"-34.50421410000000000000,-58.48623570000000000000",,,,,False,Autoservicio,Buenos Aires,Vicente López,La Lucila,,,,,,,,,,,,
3,33911439,Gonzalo Mansilla,1121881137,2.308112e+14,CR-852300,Cafe Edmyar,santa fe 299,San Juan,,,24/08/2023 10:28,24/08/2023 10:59,00:30:17,Si,"-31.53931010000000000000,-68.52964780000000000000",,,,,False,Bar,San juan,,San juan,,,,,,,,,,,,
4,AR-890233.,Agustin Romero,3516154379.,2.311061e+14,C2-170233,Cara e papa 2,Talleres 836,Córdoba,,,24/11/2023 10:09,24/11/2023 10:09,00:00:14,Si,"-31.44935490000000000000,-64.18417850000000000000",,,,,False,Pollería,Córdoba,Capital,Córdoba,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45301,GM-638172,Gabriela Martinelli,1159111845,2.402292e+14,ZU -934721,Zurdo,Gral. Lemos 6645,Buenos Aires,Almacén,,17/04/2024 09:27,17/04/2024 09:28,00:00:38,Si,"-34.60089520000000000000,-58.74433730000000000000",,,,,False,Almacén,Buenos Aires,Moreno,Moreno,,,,,,,,,,,,
45302,CT-174616,Lautaro Segura,1121885018,2.308111e+14,ZU -002473,Zurita f 5,Perez de zurita y ayacucho,Catamarca,Futbol 5,,12/09/2023 08:59,12/09/2023 08:59,00:00:39,Si,"-28.47507450000000000000,-65.78464630000000000000",,,,,False,Futbol 5,Catamarca,San Fernando,San Fernando del Valle de Catamarca,,,,,,,,,,,,
45303,CT-174616,Lautaro Segura,1121885018,2.308111e+14,ZUB-973867,Zurita pizza club,Zurita 173,Catamarca,Bar,,03/10/2023 15:06,03/10/2023 15:07,00:00:21,Si,"-28.47504390000000000000,-65.78463080000000000000",,,,,False,Bar,Catamarca,San Fernando,Catamarca,,,,,,,,,,,,
45304,JR-477241,Jose Rodriguez,1127334505,2.309192e+14,ZUP-801761,Zurka Vip,Saveedra 2341,Santa Fe,Club,,22/11/2023 19:18,22/11/2023 19:18,00:00:33,Si,"-31.64673770000000000000,-60.71613590000000000000",,,,,False,Club,Santa Fe,La Capital,Santa Fe,,,,,,,,,,,,


Eliminación de columnas innecesarias. Dado que los datos extraídos de distintos informes provienen de una base de datos común, estos reportes comparten columnas que redundan en información y no aportan al propósito de este notebook. Por lo tanto, procederemos a eliminar diversas columnas que se consideran innecesarias por el momento. Es importante aclarar que esta eliminación se realizó en los distintos reportes cargados en la memoria de Python para este notebook específico, y no afecta la materia prima utilizada para obtener la base de datos final.

In [120]:
# Elimino columnas no necesarias del DataFrame de observaciones
columnas_observaciones = ['Imagen 1', 'Imagen 2', 'Imagen 3','Persona de interés']
df_observaciones = df_observaciones.drop(columns=columnas_observaciones)

# Elimino columnas no necesarias del DataFrame de entrada y salida
columnas_entrada_salida = [
    'IMEI', 'Jerarquía nivel 1.1', 'Jerarquía nivel 2.1', 'Tiempo transcurrido',
    'Identificador Punto de interés salida', 'Nombre Punto de interés salida',
    'Foto de entrada', 'Foto de salida', 'Nombre', 'Nombre de contacto',
    'Teléfono de contacto', 'Departamento', 'Agrupaciones',
    'Jerarquía nivel 2', 'E-mails', 'Imagen', 'Ventana horaria','Departamento.1','Dirección.1'
]
df_entrada_salida = df_entrada_salida.drop(columns=columnas_entrada_salida)

# Elimino columnas no necesarias del DataFrame de tareas
columnas_tareas = ['Preguntas','IMEI del teléfono', 'Jerarquia 2 del punto de interés',
                   'Departamento del punto de interés'
                   ,'Nombre contacto en punto de interés','Teléfono contacto en punto de interés']
df_tareas = df_tareas.drop(columns=columnas_tareas)

In [121]:
df_entrada_salida

Unnamed: 0,Identificador Persona de interés,Nombre de Persona de interés,Número de celular,Identificador de Punto de Interés,Nombre de Punto de interés,Dirección,Jerarquía nivel 1,Fecha/Hora Entrada,Fecha/Hora Salida,"¿Realizó alguna acción? Llámese tareas, control de sku, observaciones, etc",Coordenadas de salida,Editado,Tipo de Punto de Venta,Provincia,Departamentos,Localidad,Número de Polígono
0,SC-398026.,Soledad Castillos,1121884796.,A -372676,Al Estilo familiar,Dumas 2211,,14/11/2023 12:26,,No,"-34.68017110000000000000,-58.76672870000000000000",False,Pollería,Buenos Aires,Merlo,Barruo samore,
1,TR-465554,Tobias Rodríguez,1159111806,A -966566,almacén Ricardo rojas,Ricardo rojas 4078,Almacén,11/06/2024 12:48,11/06/2024 12:48,No,"-34.52337710000000000000,-58.54386530000000000000",False,Almacén,Buenos Aires,Vicente López,Villa adelina,25.0
2,PG-694681,Pablo Galeano,1132712150,B -101700,Borges Market,Borges 799,,13/12/2023 14:46,13/12/2023 14:47,Si,"-34.50421410000000000000,-58.48623570000000000000",False,Autoservicio,Buenos Aires,Vicente López,La Lucila,
3,33911439,Gonzalo Mansilla,1121881137,CR-852300,Cafe Edmyar,santa fe 299,,24/08/2023 10:28,24/08/2023 10:59,Si,"-31.53931010000000000000,-68.52964780000000000000",False,Bar,San juan,,San juan,
4,AR-890233.,Agustin Romero,3516154379.,C2-170233,Cara e papa 2,Talleres 836,,24/11/2023 10:09,24/11/2023 10:09,Si,"-31.44935490000000000000,-64.18417850000000000000",False,Pollería,Córdoba,Capital,Córdoba,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45301,GM-638172,Gabriela Martinelli,1159111845,ZU -934721,Zurdo,Gral. Lemos 6645,Almacén,17/04/2024 09:27,17/04/2024 09:28,Si,"-34.60089520000000000000,-58.74433730000000000000",False,Almacén,Buenos Aires,Moreno,Moreno,
45302,CT-174616,Lautaro Segura,1121885018,ZU -002473,Zurita f 5,Perez de zurita y ayacucho,Futbol 5,12/09/2023 08:59,12/09/2023 08:59,Si,"-28.47507450000000000000,-65.78464630000000000000",False,Futbol 5,Catamarca,San Fernando,San Fernando del Valle de Catamarca,
45303,CT-174616,Lautaro Segura,1121885018,ZUB-973867,Zurita pizza club,Zurita 173,Bar,03/10/2023 15:06,03/10/2023 15:07,Si,"-28.47504390000000000000,-65.78463080000000000000",False,Bar,Catamarca,San Fernando,Catamarca,
45304,JR-477241,Jose Rodriguez,1127334505,ZUP-801761,Zurka Vip,Saveedra 2341,Club,22/11/2023 19:18,22/11/2023 19:18,Si,"-31.64673770000000000000,-60.71613590000000000000",False,Club,Santa Fe,La Capital,Santa Fe,


In [122]:
canales_unicos_de_tareas= df_tareas['Canal'].unique()
canales_unicos_de_entrada_salida= df_entrada_salida['Tipo de Punto de Venta'].unique()

print(f"los canales unicos del la columna canal del reporte de tareas son:{canales_unicos_de_tareas}")
print(f"los canales unicos del la columna Tipo de Punto de Venta del reporte de entrada y salida:{canales_unicos_de_entrada_salida}")

los canales unicos del la columna canal del reporte de tareas son:['Maxi Kiosco' 'Retaurant' 'Kiosco Ventana' 'Autoservicio / Chino'
 'Dietetíca' 'Almacén' 'Pescadería' 'Confitería' 'Bar' 'Rotisería'
 'Verdulería' 'Golsinería' 'Goloteca' 'Carnicería' 'Fiambrería'
 'Farmacia / Perfumería' 'Pollería' 'Panadería' 'Clubes' 'Hotel' 'Cine'
 'Heladerías' 'Escuelas' 'Vinoteca' 'Centro de salud' 'Bingo'
 'Salon de eventos' 'Universidades' 'Futbol 5' 'Centro educativo' 'Club'
 'Country' 'Pádel' 'Hospitales' 'Pelotero' nan 'Farmacia']
los canales unicos del la columna Tipo de Punto de Venta del reporte de entrada y salida:['Pollería' 'Almacén' 'Autoservicio' 'Bar' 'Verdulería' 'Futbol 5'
 'Centro de Salud' 'Restaurant' 'Dietética' 'Rotisería' 'Kiosco Ventana'
 'Maxi Kiosco' 'Heladerías' 'Confitería' 'Escuelas' 'Panadería' 'Bingo'
 'Club' 'Goloteca' 'Carnicería' 'Farmacia / Perfumería' 'Fiambrería'
 'Clubes' nan 'Salon de Eventos' 'Vinoteca' 'Pelotero' 'Hotel'
 'Centro Educativo' 'Pescadería' 'Cou

In [123]:
df_tareas['Canal'] = df_tareas['Canal'].replace({'Autoservicio / Chino':'Autoservicio'})

In [124]:
# Dimensiones de los DataFrames
dimensiones_df_entrada_salida = df_entrada_salida.shape
dimensiones_df_observaciones = df_observaciones.shape
dimensiones_df_tareas = df_tareas.shape

# Cantidad de identificadores únicos en cada DataFrame
identificadores_unicos_entrada_salida = df_entrada_salida['Identificador de Punto de Interés'].nunique()
identificadores_unicos_observaciones = df_observaciones['Identificador Punto de interés'].nunique()
identificadores_unicos_tareas = df_tareas['Identificador del punto de interés'].nunique()

# resultados
print(f"Dimensiones de df_entrada_salida: {dimensiones_df_entrada_salida}")
print(f"Cantidad de identificadores únicos en df_entrada_salida: {identificadores_unicos_entrada_salida}")

print(f"Dimensiones de df_observaciones: {dimensiones_df_observaciones}")
print(f"Cantidad de identificadores únicos en df_observaciones: {identificadores_unicos_observaciones}")

print(f"Dimensiones de df_tareas: {dimensiones_df_tareas}")
print(f"Cantidad de identificadores únicos en df_tareas: {identificadores_unicos_tareas}")

Dimensiones de df_entrada_salida: (45306, 17)
Cantidad de identificadores únicos en df_entrada_salida: 42746
Dimensiones de df_observaciones: (5497, 5)
Cantidad de identificadores únicos en df_observaciones: 5343
Dimensiones de df_tareas: (38465, 84)
Cantidad de identificadores únicos en df_tareas: 37521


dado que realizaremos una concateniacion de datos renombraremos las columnas para que estas tengan los mismos nombres.

In [125]:
# Renombrar columnas de df_observaciones
df_observaciones = df_observaciones.rename(columns={
    'Identificador Punto de interés': 'identificador_pdv',
    'Punto de interés': 'nombre_alta'
})

# Renombrar columnas de df_tareas
df_tareas = df_tareas.rename(columns={
    'Fecha de inicio': 'Fecha',
    'Identificador del punto de interés': 'identificador_pdv',
    'Nombre del punto de interés': 'nombre_alta',
    'Nombre de persona de interés': 'nombre_censista',
    'Coordenadas inicio': 'Coordenadas',
    'Identificador de persona de interés': 'identificado_censita',
    'Dirección del punto de interés':'Dirección'
})

# Renombrar columnas de df_entrada_salida
df_entrada_salida = df_entrada_salida.rename(columns={
    'Identificador Persona de interés': 'identificado_censita',
    'Nombre de Punto de interés': 'nombre_alta',
    'Fecha/Hora Entrada': 'Fecha',
    'Tipo de Punto de Venta': 'Canal',
    'Departamentos': 'Departamento',
    'Coordenadas de salida': 'Coordenadas',
    'Nombre de Persona de interés': 'nombre_censista',
    'Identificador de Punto de Interés':'identificador_pdv'
})

Dado que el reporte de observaciones contiene información limitada a las observaciones específicas, esta tabla carece de columnas importantes como provincia, departamento, coordenadas, entre otras. Como se mencionó a lo largo de este notebook, la naturaleza de los datos indica que todos los registros deben estar presentes en el reporte de entrada y salida manual. Dentro de este reporte se encuentran columnas que nos brindan la información completa requerida.

Para incorporar las columnas de provincia, departamento, coordenadas, etc., desde el reporte de entrada y salida manual al reporte de observaciones, realizaremos una unión de ambas tablas ("reporte de observaciones" y "reporte de entrada y salida manual") utilizando una columna en común llamada 'identificador_pdv'. Conservaremos los registros del reporte de observaciones y añadiremos las columnas relevantes del reporte de entrada y salida manual. De esta forma, mantendremos los mismos registros del reporte de observaciones mientras complementamos la información con las columnas disponibles en el reporte de entrada y salida manual.

In [126]:
df_observaciones.shape

(5497, 5)

In [127]:
df_observaciones = pd.merge(df_observaciones, df_entrada_salida, on='identificador_pdv', how='left')

In [128]:
df_observaciones.shape

(6270, 21)

In [129]:
# Elimino coplumnas repetidas
columnas_eliminar = ['identificado_censita', 'nombre_censista','nombre_alta_y', 'Fecha_y']
df_observaciones =  df_observaciones.drop(columns=columnas_eliminar)

In [130]:

# Renombrar columnas de df_observaciones
df_observaciones = df_observaciones.rename(columns={
    'Fecha_x': 'Fecha',
    'nombre_alta_x': 'nombre_alta'
})

In [131]:
num_identificadores_unicos = df_observaciones['identificador_pdv'].nunique()
print(f"Número de identificadores únicos: {num_identificadores_unicos}")


Número de identificadores únicos: 5343


In [132]:
df_observaciones

Unnamed: 0,Fecha,identificador_pdv,nombre_alta,Tipos de observación,Descripción,Número de celular,Dirección,Jerarquía nivel 1,Fecha/Hora Salida,"¿Realizó alguna acción? Llámese tareas, control de sku, observaciones, etc",Coordenadas,Editado,Canal,Provincia,Departamento,Localidad,Número de Polígono
0,01/07/2024 17:17,DES-653503,Despensa las violetas,Cerrado,Negocio cerrado,,,,,,,,,,,,
1,01/07/2024 15:44,KIO-552261,Kiosko,Cerrado,Cerrado,,,,,,,,,,,,
2,01/07/2024 13:09,CAO-831374,Campo hermoso,Cerrado,Cerrado,,,,,,,,,,,,
3,01/07/2024 10:36,KIO-807033,Kiosko,Rechazado,No quiso dar informacion,,,,,,,,,,,,
4,01/07/2024 09:51,KIO-520384,Kiosko,Cerrado,Negocio cerrado,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6265,23/08/2023 14:52,CE -252684,Cesap san juan,Cerrado,No me quisieron atender por que el dueño se es...,1121881137,Entre rios 532,Almacén,23/08/2023 14:54,Si,"-31.54072330000000000000,-68.52676670000000000000",False,Almacén,San Juan,Capital,San Juan,
6266,23/08/2023 14:15,SOO-279230,Sol andino,Cerrado,El local se encuentra cerrado,,,,,,,,,,,,
6267,23/08/2023 12:44,ELN-916418,El Nuevo Bodegon,Cerrado,No me dejaron hacer la encuesta. Por ausencia ...,1121881137,Mendoza 353,Restaurant,23/08/2023 12:44,No,"-31.53854500000000000000,-68.52553020000000000000",False,Restaurant,San Juan,Capital,San Juan,
6268,17/08/2023 15:56,FAA-219832,Farmacia,Cerrado,Estaba clausurado,11,Calle falsa 123,,17/08/2023 15:58,Si,"-34.63462480000000000000,-58.42578720000000000000",False,,Caba,,Parque chacabuco,


In [133]:
# Identificar cuántos identificadores únicos hay en 'identificador_pdv'
num_identificadores_unicos = df_observaciones['identificador_pdv'].nunique()
print(f"Número de identificadores únicos: {num_identificadores_unicos}")

# Convertir la columna 'Fecha' a tipo datetime especificando el formato correcto
df_observaciones['Fecha'] = pd.to_datetime(df_observaciones['Fecha'], format='%d/%m/%Y %H:%M', dayfirst=True)

# Ordenar el DataFrame por 'identificador_pdv' y 'Fecha' en orden descendente
df_observaciones.sort_values(by=['identificador_pdv', 'Fecha'], ascending=[True, False], inplace=True)

# Eliminar duplicados, conservando el registro más reciente
df_observaciones = df_observaciones.drop_duplicates(subset='identificador_pdv', keep='first')

# Resetear el índice si es necesario
df_observaciones.reset_index(drop=True, inplace=True)


Número de identificadores únicos: 5343



## **OBTENCIÓN DE LA BASE**

En este proceso, realizamos la concatenación de tres tipos diferentes de reportes, como explicamos en el notebook:

1. **Reporte de Tareas**
2. **Reporte de Observaciones**
3. **Reporte de Entrada y Salida Manual**

Primero, adaptamos el Reporte de Tareas para que tenga una estructura consistente entre la primera y la segunda etapa, lo cual logramos mediante varias limpiezas y ajustes de nombres. Luego, enriquecimos el Reporte de Observaciones agregando columnas adicionales cruzándolo con el Reporte de Entrada y Salida Manual a través del identificador PDVID, asegurándonos de que los nombres sean coherentes.

Esto nos proporciona tres tablas funcionales. Como explicamos, el Reporte de Entrada y Salida Manual incluye todas las instancias (encuestas), pero carece de información sobre el estado de la encuesta o si un local estaba cerrado, rechazado, etc. Para obtener todos los datos recopilados en el censo, realizamos lo siguiente:

Tomamos todos los PDVID que se encuentran en el Reporte de Observaciones y eliminamos las coincidencias del Reporte de Tareas. Esto nos deja en el Reporte de Observaciones aquellos registros que realmente indican locales cerrados, encuestas rechazadas o información limitada. Este proceso se debe a que, durante su recorrido, un censista puede registrar un punto de venta como cerrado, lo cual genera un registro en ambos reportes. Si el local luego es encuestado, se generará un nuevo registro en el Reporte de Tareas, pero seguirá existiendo el registro inicial en el Reporte de Observaciones.

La conclusión es que para obtener los registros de locales que realmente fueron encontrados cerrados, rechazaron la encuesta o dieron poca información, debemos conservar las NO COINCIDENCIAS entre el Reporte de Observaciones y el Reporte de Tareas. Una vez obtenidos estos registros, almacenamos los identificadores del Reporte de Tareas junto con los identificadores únicos de la no coincidencia entre el Reporte de Observaciones y Tareas en una lista.

Finalmente, eliminamos las coincidencias del Reporte de Entrada y Salida Manual. Esto nos proporciona tres bases de datos donde ningún identificador de punto de venta está presente en más de un reporte, es decir, nos quedamos con registros "únicos" según la funcionalidad de cada reporte.

Luego, combinamos los tres reportes en uno solo y agregamos una columna que indique a qué reporte corresponde cada registro. De este modo, obtenemos una base de datos consolidada con una lógica clara que respalda su creación.

In [134]:

# 1. Elimino los identificadores de df_observaciones que están en df_tareas
ids_tareas = set(df_tareas['identificador_pdv'])
df_observaciones_filtrado = df_observaciones[~df_observaciones['identificador_pdv'].isin(ids_tareas)]

# Mostrar la cantidad de registros después de la eliminación
print(f"Cantidad de registros en df_observaciones_filtrado: {len(df_observaciones_filtrado)}")

# 2. Crear una lista de identificadores a eliminar en df_entrada_salida
ids_observaciones = set(df_observaciones_filtrado['identificador_pdv'])
ids_a_eliminar = ids_observaciones.union(ids_tareas)

# 3. Filtrar df_entrada_salida utilizando los identificadores a eliminar
df_entrada_salida_filtrado = df_entrada_salida[~df_entrada_salida['identificador_pdv'].isin(ids_a_eliminar)]

# Mostrar la cantidad de registros después de la eliminación
print(f"Cantidad de registros en df_entrada_salida_filtrado: {len(df_entrada_salida_filtrado)}")

# 4. Añadir una columna 'origen' para identificar la fuente de cada fila
df_entrada_salida_filtrado['origen'] = 'alta'
df_observaciones_filtrado['origen'] = 'observado'
df_tareas['origen'] = 'efectivamente censado'

# Mostrar la cantidad de registros de cada tabla individualmente
print(f"Cantidad de registros en df_tareas: {len(df_tareas)}")

# 5. Concatenar los DataFrames resultantes
df_concatenado = pd.concat([df_entrada_salida_filtrado, df_tareas, df_observaciones_filtrado], ignore_index=True)

# 6. Mostrar la cantidad total de registros después de concatenar
print(f"Cantidad total de registros en df_concatenado: {len(df_concatenado)}")

# Mostrar el DataFrame concatenado (opcional)
print("DataFrame concatenado:")
print(df_concatenado.head())


Cantidad de registros en df_observaciones_filtrado: 4371
Cantidad de registros en df_entrada_salida_filtrado: 1121
Cantidad de registros en df_tareas: 38465
Cantidad total de registros en df_concatenado: 43957
DataFrame concatenado:
  identificado_censita        nombre_censista Número de celular  \
0            RZ-187974  Ricardo  Zorkendorfer        1159111825   
1           SC-398026.      Soledad Castillos       1121884796.   
2            TR-029883     Tobias  Rodríguez         1159111806   
3            TR-029883     Tobias  Rodríguez         1159111806   
4            TR-029883     Tobias  Rodríguez         1159111806   

  identificador_pdv             nombre_alta     Dirección Jerarquía nivel 1  \
0        LEL-947328   Dietetica Lex natural   Parana 2799         Dietética   
1         S -013637        S y m panaderia   San jose 910               NaN   
2        140-075566                    1440  Billinghurst     Kiosco Cadena   
3        140-075566                    1440  Bil

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_entrada_salida_filtrado['origen'] = 'alta'
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_observaciones_filtrado['origen'] = 'observado'


In [135]:
print(df_concatenado['origen'].value_counts())
print(df_tareas.shape)
print(df_entrada_salida_filtrado.shape)
print(df_observaciones_filtrado.shape)

origen
efectivamente censado    38465
observado                 4371
alta                      1121
Name: count, dtype: int64
(38465, 85)
(1121, 18)
(4371, 18)


In [136]:
df_concatenado

Unnamed: 0,identificado_censita,nombre_censista,Número de celular,identificador_pdv,nombre_alta,Dirección,Jerarquía nivel 1,Fecha,Fecha/Hora Salida,"¿Realizó alguna acción? Llámese tareas, control de sku, observaciones, etc",Coordenadas,Editado,Canal,Provincia,Departamento,Localidad,Número de Polígono,origen,Hora inicio,Fecha completado,Hora completado,Coordenadas fin,ID_censista,Número de teléfono,Jerarquia 1 del punto de interés,Departamentos,Tipo de Punto de Venta,Razón Social,CUIT,Papeles?,Cantidad de Cajas(Autoservicio),Cantidad de Góndolas(Autoservicio),Tiene Verdulería(Autoservicio),Tiene Fiambrería(Autoservicio),Heladeras con lacteos(Autoservicio),Heladeras con bebidas(Autoservicio),Cantidad de Exhibidores de primeras marcas(Almacen),Tiene surtido de vinos(Almacen),Tiene Heladera de lácteos(Almacen),Tiene gondola(Maxi Kiosco),"si tenga gondola, cuan llena esta?(Maxi Kiosco)",Tiene exhibidor de chicles/caramelos(Maxi Kiosco),cuan lleno esta?(Maxi Kiosco),No tiene servicios adicionales(Maxi Kiosco),Fotocopias(Maxi Kiosco),RapiPago(Maxi Kiosco),Tramites(Maxi Kiosco),SUBE(Maxi Kiosco),Cuan llena estan las estanterias(Kiosco Ventana),Comercializa chocolates(Vinoteca),Comercializa productos de kiosco(farmacia),Modalidad de Venta(Goloteca/Golsineria),Tabletas(Goloteca/Golsineria),Bombones(Goloteca/Golsineria),Alfajores(Goloteca/Golsineria),Chicles(Goloteca/Golsineria),Caramelos(Goloteca/Golsineria),Galletas(Goloteca/Golsineria),Cantidad de góndolas/estanterías(Dietetica),Llenado de estanterías(Dietetica),Trabaja con?,Distribuidor,Frecuencia de Visita,Frecuencia de entrega,Se acerca un repositor de Mondelez?,Se acerca un repositor de la competencia?,"En caso de que sea otro, indicar con quien",Aplicaciones B2B,MDLZ_1,Arcor_1,BEES,Serenisima,Massalin,arcor_e,georgalos_e,quilmes_e,pepsi_e,cocacola_e,cigarillos_e,mondelez_e,Observaciones,Cantidad_de_heladeras_1,Estado_de_Inmueble_1,Oportunidades,BC(Dietetica),Aguila(Dietetica),CerealMix(Dietetica),Turrón Arcor(Dietetica),Chocolate sin Azúcar Georgalos(Dietetica),Georgalos(Dietetica),Cigarros(Dietetica),Que servicios adicionales tiene,Tipos de observación,Descripción
0,RZ-187974,Ricardo Zorkendorfer,1159111825,LEL-947328,Dietetica Lex natural,Parana 2799,Dietética,11/06/2024 11:43,11/06/2024 11:44,No,"-34.50391460000000000000,-58.51111280000000000000",False,Dietética,Buenos Aires,San Isidro,Martinez,19.0,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,SC-398026.,Soledad Castillos,1121884796.,S -013637,S y m panaderia,San jose 910,,20/12/2023 12:39,,No,"-34.54650880000000000000,-58.70160430000000000000",False,Panadería,Buenos Aires,San Miguel,San Miguel,,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,TR-029883,Tobias Rodríguez,1159111806,140-075566,1440,Billinghurst,Kiosco Cadena,15/04/2024 14:39,15/04/2024 14:39,No,"-34.58698660000000000000,-58.40750810000000000000",False,Maxi Kiosco,Buenos Aires,Capital,Palermo,,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,TR-029883,Tobias Rodríguez,1159111806,140-075566,1440,Billinghurst,Kiosco Cadena,16/04/2024 16:08,16/04/2024 16:08,No,"-34.58692580000000000000,-58.40726940000000000000",False,Maxi Kiosco,Buenos Aires,Capital,Palermo,,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,TR-029883,Tobias Rodríguez,1159111806,140-075566,1440,Billinghurst,Kiosco Cadena,17/04/2024 10:52,17/04/2024 10:52,No,"-34.58662270000000000000,-58.40698290000000000000",False,Maxi Kiosco,Buenos Aires,Capital,Palermo,,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
43952,,,1127065165,ZEA-497938,Zeta,España 388,Autoservicio,2023-12-19 13:50:00,19/12/2023 13:50,Si,"-34.53341830000000000000,-58.70779170000000000000",False,Autoservicio,Buenos Aires,San Miguel,San miguel,,observado,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Cerrado,Cerrado
43953,,,3513608369,ZOR-303814,Zona black bar,Av. Juan B Justo 6653,Bar,2023-10-10 09:27:00,10/10/2023 09:28,Si,"-31.34057500000000000000,-64.17635440000000000000",False,Bar,Córdoba,Capital,Córdoba,,observado,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Cerrado,Cerrado
43954,,,1159111825,ZOR-404981,Zol tov kosher,Jean jaures 958,Autoservicio,2024-04-18 13:08:00,18/04/2024 13:09,Si,"-34.59911100000000000000,-58.40693690000000000000",False,Autoservicio,Buenos Aires,Capital,Balvanera,,observado,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Cerrado,Cerrado
43955,,,1121885018,ZU -002473,Zurita f 5,Perez de zurita y ayacucho,Futbol 5,2023-09-12 08:59:00,12/09/2023 08:59,Si,"-28.47507450000000000000,-65.78464630000000000000",False,Futbol 5,Catamarca,San Fernando,San Fernando del Valle de Catamarca,,observado,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Cerrado,Horario cerrado


In [137]:
# Agrupar por 'identificador_pdv' y contar los valores únicos de 'origen'
origen_counts = df_concatenado.groupby('identificador_pdv')['origen'].nunique()

# Filtrar los 'identificador_pdv' que tienen más de un valor único en 'origen'
multi_origen_pdv = origen_counts[origen_counts > 1]

# Mostrar los resultados
multi_origen_pdv_ids = multi_origen_pdv.index.tolist()
print("Los identificadores de PDV con más de un valor en la columna 'origen' son:", multi_origen_pdv_ids)

Los identificadores de PDV con más de un valor en la columna 'origen' son: []


In [138]:
df_concatenado = df_concatenado.drop_duplicates()

In [139]:
df_concatenado

Unnamed: 0,identificado_censita,nombre_censista,Número de celular,identificador_pdv,nombre_alta,Dirección,Jerarquía nivel 1,Fecha,Fecha/Hora Salida,"¿Realizó alguna acción? Llámese tareas, control de sku, observaciones, etc",Coordenadas,Editado,Canal,Provincia,Departamento,Localidad,Número de Polígono,origen,Hora inicio,Fecha completado,Hora completado,Coordenadas fin,ID_censista,Número de teléfono,Jerarquia 1 del punto de interés,Departamentos,Tipo de Punto de Venta,Razón Social,CUIT,Papeles?,Cantidad de Cajas(Autoservicio),Cantidad de Góndolas(Autoservicio),Tiene Verdulería(Autoservicio),Tiene Fiambrería(Autoservicio),Heladeras con lacteos(Autoservicio),Heladeras con bebidas(Autoservicio),Cantidad de Exhibidores de primeras marcas(Almacen),Tiene surtido de vinos(Almacen),Tiene Heladera de lácteos(Almacen),Tiene gondola(Maxi Kiosco),"si tenga gondola, cuan llena esta?(Maxi Kiosco)",Tiene exhibidor de chicles/caramelos(Maxi Kiosco),cuan lleno esta?(Maxi Kiosco),No tiene servicios adicionales(Maxi Kiosco),Fotocopias(Maxi Kiosco),RapiPago(Maxi Kiosco),Tramites(Maxi Kiosco),SUBE(Maxi Kiosco),Cuan llena estan las estanterias(Kiosco Ventana),Comercializa chocolates(Vinoteca),Comercializa productos de kiosco(farmacia),Modalidad de Venta(Goloteca/Golsineria),Tabletas(Goloteca/Golsineria),Bombones(Goloteca/Golsineria),Alfajores(Goloteca/Golsineria),Chicles(Goloteca/Golsineria),Caramelos(Goloteca/Golsineria),Galletas(Goloteca/Golsineria),Cantidad de góndolas/estanterías(Dietetica),Llenado de estanterías(Dietetica),Trabaja con?,Distribuidor,Frecuencia de Visita,Frecuencia de entrega,Se acerca un repositor de Mondelez?,Se acerca un repositor de la competencia?,"En caso de que sea otro, indicar con quien",Aplicaciones B2B,MDLZ_1,Arcor_1,BEES,Serenisima,Massalin,arcor_e,georgalos_e,quilmes_e,pepsi_e,cocacola_e,cigarillos_e,mondelez_e,Observaciones,Cantidad_de_heladeras_1,Estado_de_Inmueble_1,Oportunidades,BC(Dietetica),Aguila(Dietetica),CerealMix(Dietetica),Turrón Arcor(Dietetica),Chocolate sin Azúcar Georgalos(Dietetica),Georgalos(Dietetica),Cigarros(Dietetica),Que servicios adicionales tiene,Tipos de observación,Descripción
0,RZ-187974,Ricardo Zorkendorfer,1159111825,LEL-947328,Dietetica Lex natural,Parana 2799,Dietética,11/06/2024 11:43,11/06/2024 11:44,No,"-34.50391460000000000000,-58.51111280000000000000",False,Dietética,Buenos Aires,San Isidro,Martinez,19.0,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,SC-398026.,Soledad Castillos,1121884796.,S -013637,S y m panaderia,San jose 910,,20/12/2023 12:39,,No,"-34.54650880000000000000,-58.70160430000000000000",False,Panadería,Buenos Aires,San Miguel,San Miguel,,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,TR-029883,Tobias Rodríguez,1159111806,140-075566,1440,Billinghurst,Kiosco Cadena,15/04/2024 14:39,15/04/2024 14:39,No,"-34.58698660000000000000,-58.40750810000000000000",False,Maxi Kiosco,Buenos Aires,Capital,Palermo,,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,TR-029883,Tobias Rodríguez,1159111806,140-075566,1440,Billinghurst,Kiosco Cadena,16/04/2024 16:08,16/04/2024 16:08,No,"-34.58692580000000000000,-58.40726940000000000000",False,Maxi Kiosco,Buenos Aires,Capital,Palermo,,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,TR-029883,Tobias Rodríguez,1159111806,140-075566,1440,Billinghurst,Kiosco Cadena,17/04/2024 10:52,17/04/2024 10:52,No,"-34.58662270000000000000,-58.40698290000000000000",False,Maxi Kiosco,Buenos Aires,Capital,Palermo,,alta,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
43952,,,1127065165,ZEA-497938,Zeta,España 388,Autoservicio,2023-12-19 13:50:00,19/12/2023 13:50,Si,"-34.53341830000000000000,-58.70779170000000000000",False,Autoservicio,Buenos Aires,San Miguel,San miguel,,observado,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Cerrado,Cerrado
43953,,,3513608369,ZOR-303814,Zona black bar,Av. Juan B Justo 6653,Bar,2023-10-10 09:27:00,10/10/2023 09:28,Si,"-31.34057500000000000000,-64.17635440000000000000",False,Bar,Córdoba,Capital,Córdoba,,observado,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Cerrado,Cerrado
43954,,,1159111825,ZOR-404981,Zol tov kosher,Jean jaures 958,Autoservicio,2024-04-18 13:08:00,18/04/2024 13:09,Si,"-34.59911100000000000000,-58.40693690000000000000",False,Autoservicio,Buenos Aires,Capital,Balvanera,,observado,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Cerrado,Cerrado
43955,,,1121885018,ZU -002473,Zurita f 5,Perez de zurita y ayacucho,Futbol 5,2023-09-12 08:59:00,12/09/2023 08:59,Si,"-28.47507450000000000000,-65.78464630000000000000",False,Futbol 5,Catamarca,San Fernando,San Fernando del Valle de Catamarca,,observado,NaT,NaT,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Cerrado,Horario cerrado


In [140]:
print(df_concatenado.shape)
print(df_concatenado['identificador_pdv'].nunique())

(43955, 94)
42911


Ahora exportaremos la base de datos a un archivo Excel. Esta base de datos contiene todos los registros generados por el censo, además del código y la explicación lógica de cómo se obtuvo. También incluye las bases de datos originales y un código que puede ser ejecutado para verificar su funcionamiento.

In [141]:
df_concatenado.to_excel("BDD.xlsx",index=False)