# Limpieza Total del Conjunto de Datos

Vamos a unificar los distintos procesos de limpieza para el conjunto de datos y dejar un conjunto de datos con la información de la manera mas limpia posible y lista para generar una segmentación de calidad posterior a su codificacion mas adelante


<br>

---

In [None]:
# Librerias necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Limpieza del conjunto

A partir de este punto vamos a realizar algunos ajustes adicionales como generar una columna *TipoShow* para clasificar los shows, una columna *FechaShow* generada a partir de la informacion que contiene los valores de la columna *Show* y una columna *SeCompartio* con información proporcionada por la columna *Forma de Pago* ademas de unificar ciertos valores comunes en esta columna

## 1.1 Analizar el conjunto de datos previo

Vamos a darle un vistazo general al conjunto de datos parcialmente limpio proporcionado y explicar que cambios importantes se le han realizado previamente haciendo una comparativa con los datos base

In [None]:
# Conjunto de datos base (Sin ningun tipo de limpieza)
df_base = pd.read_csv('DATA_BASE.csv')
df_base

Unnamed: 0,#,Fecha registro,Show,Asientos,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago
0,1.0,2024-01-03 11:14:37,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,H2;\n 51F,2,1105434599,CORTESÍAS GOLDEN,Compartido,100.0
1,2.0,2024-01-03 10:20:42,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,18;\n 19,2,1105434599,CORTESÍAS VIP,Compartido,100.0
2,3.0,2024-01-03 10:20:42,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,14;\n 15,2,1105434599,CORTESÍAS VIP,Compartido,100.0
3,4.0,2024-01-03 10:20:42,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,13,1,1105434599,CORTESÍAS VIP,Compartido,100.0
4,5.0,2024-01-03 16:08:14,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,11;\n 12,2,1100575057,VIP,Compartido,100.0
...,...,...,...,...,...,...,...,...,...
19583,19584.0,2024-11-08 17:22:30,Un hombre muerto a puntapiés | 2024-11-18 20:0...,20D;\n 19D,2,1103781694,Plat. Baja centro,Ahorita,100.0
19584,19585.0,2024-11-08 09:12:07,MEDEAS | 2024-11-20 20:00:00,20E,1,1102842349,Plat. Baja Centro,Compartido,100.0
19585,19586.0,2024-11-08 17:17:57,A pebble falling on a silent lake | 2024-11-16...,20DD;\n 19DD,2,1105777682,Plat. Media Centro,Ahorita,100.0
19586,19587.0,2024-11-08 17:15:05,MEDEAS | 2024-11-20 20:00:00,19EE;\n 20EE;\n 21EE,3,1105777682,Plat. Media Centro,Ahorita,100.0


In [None]:
# Conjuntos de datos parcialmente limpios
df_v1 = pd.read_csv('/content/drive/MyDrive/Proyectos/Segmentacion-AnalisisMercado-Clipp/Datasets/Oficiales_Clipp_NO_COMPARTIR/Limpieza/dfV1.3.csv')
df_v1

Unnamed: 0,#,Fecha registro,Show,Asientos,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago
0,1,03/01/2024 11:14:37 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,H2;\r\n 51F,2,1.105435e+09,CORTESÍAS GOLDEN,Compartido,100.0
1,2,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,18;\r\n 19,2,1.105435e+09,CORTESÍAS VIP,Compartido,100.0
2,3,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,14;\r\n 15,2,1.105435e+09,CORTESÍAS VIP,Compartido,100.0
3,4,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,13,1,1.105435e+09,CORTESÍAS VIP,Compartido,100.0
4,5,03/01/2024 04:08:14 p. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,11;\r\n 12,2,1.100575e+09,VIP,Compartido,100.0
...,...,...,...,...,...,...,...,...,...
19290,19583,08/11/2024 05:23:11 p. m.,Cuarteto de Saxofón y Sinfónica Philip Glass |...,9HH;\r\n 10HH,2,1.104657e+09,PLATEA MEDIA,Deuna V2,100.0
19291,19584,08/11/2024 05:22:30 p. m.,Un hombre muerto a puntapiés | 2024-11-18 20:0...,20D;\r\n 19D,2,1.103782e+09,PLATEA BAJA,Ahorita,100.0
19292,19585,08/11/2024 09:12:07 a. m.,MEDEAS | 2024-11-20 20:00:00,20E,1,1.102842e+09,PLATEA BAJA,Compartido,100.0
19293,19586,08/11/2024 05:17:57 p. m.,A pebble falling on a silent lake | 2024-11-16...,20DD;\r\n 19DD,2,1.105778e+09,PLATEA MEDIA,Ahorita,100.0


In [None]:
# Convertir 'Cédula' a tipo numérico (int o float según corresponda)
df_v1['Cédula'] = pd.to_numeric(df_v1['Cédula'], errors='coerce').astype(pd.Int64Dtype())

# Convertir 'Cédula' a string con formato sin notación científica
df_v1['Cédula'] = df_v1['Cédula'].astype(str)

In [None]:
df_v1.head()

Unnamed: 0,#,Fecha registro,Show,Asientos,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago
0,1,03/01/2024 11:14:37 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,H2;\r\n 51F,2,1105434599,CORTESÍAS GOLDEN,Compartido,100.0
1,2,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,18;\r\n 19,2,1105434599,CORTESÍAS VIP,Compartido,100.0
2,3,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,14;\r\n 15,2,1105434599,CORTESÍAS VIP,Compartido,100.0
3,4,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,13,1,1105434599,CORTESÍAS VIP,Compartido,100.0
4,5,03/01/2024 04:08:14 p. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,11;\r\n 12,2,1100575057,VIP,Compartido,100.0


Se redujo la categorización en Nombre Localidad de **136** a **33**

In [None]:
df_base['Nombre Localidad'].unique().size

136

In [None]:
df_v1['Nombre Localidad'].unique().size

33

Quedando unicamente las siguientes categorias

In [None]:
df_v1['Nombre Localidad'].unique()

array(['CORTESÍAS GOLDEN', 'CORTESÍAS VIP', 'VIP', 'Golden Box',
       'SALA 3 ocupada', 'BOLETO SOLIDARIO', 'Adhesiones', 'PREFERENCIA',
       'BOLETO GENERAL', 'PALCO', 'TRIBUNA NORTE', 'TRIBUNA SUR',
       'FUNCIÓN 3 21:10PM', 'FUNCIÓN 2 19H00', 'FUNCIÓN 1 16H50 PM.',
       'VENTA OFICIAL', 'PREVENTA ', 'CORTESÍAS', 'SALA 1 3D',
       'SALA 1 2D', 'INSCRIPCIÓN DIGITAL', 'GOLDEN', 'SALA 2',
       'BOLETO PALCO', 'PLATEA ALTA', 'PLATEA BAJA', 'SILLAS DIGITAL',
       'PLATEA MEDIA', 'MESAS GOLDEN', 'PLATINUM', 'SILLAS VIP',
       'PRESIDENTES', 'Sala General'], dtype=object)

Se eliminaron valores atípicos en los nros de cédulas (27)

In [None]:
cedulasgrandes = df_base[df_base['Cédula'].astype(str).str.len() > 13]
print(cedulasgrandes['Cédula'])
print(cedulasgrandes['Cédula'].count())

3636        11111111111111
6990     11047000000000000
7012     19006000000000000
7013     19006000000000000
7027     11048000000000000
7069     11025000000000000
7081     11046000000000000
7106     11048000000000000
7117     11044000000000000
7123     11046000000000000
7165     11042000000000000
7188     11039000000000000
7218     11026000000000000
7228     11917000000000000
7249      7054600000000000
14237    11047000000000000
14245    11037000000000000
14249    11037000000000000
14265      110340000000000
14374    11059000000000000
14378    11042000000000000
17837    11047000000000000
17845    11037000000000000
17849    11037000000000000
17865      110340000000000
17974    11059000000000000
17978    11042000000000000
Name: Cédula, dtype: object
27


In [None]:
df_v1[df_v1['Cédula'].astype(str).str.len() > 13]

Unnamed: 0,#,Fecha registro,Show,Asientos,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago


Se elimino el valor atípico en **Total Boletos**

In [None]:
print(df_base['Total Boletos'].value_counts().sort_index(ascending=True))

Total Boletos
1        5259
2        7782
3        2479
4        1933
5         851
6         217
7          90
8          85
9          28
10        692
11         10
12          3
13          1
15        126
18          1
20         11
22          1
23          1
24          2
25          2
26          1
30          1
50         11
53067       1
Name: count, dtype: int64


In [None]:
print(df_v1['Total Boletos'].value_counts().sort_index(ascending=True))

Total Boletos
1     5166
2     7713
3     2465
4     1895
5      801
6      214
7       89
8       83
9       25
10     673
11      10
12       3
13       1
15     126
18       1
20      11
22       1
23       1
24       2
25       2
26       1
30       1
50      11
Name: count, dtype: int64


---

## 1.2 Limpieza profunda

Vamos a terminar de limpiar algunos campos modificando algunas columnas y deshaciendonos de algunos nulos

In [None]:
df_v1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19295 entries, 0 to 19294
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   #                 19295 non-null  int64  
 1   Fecha registro    19295 non-null  object 
 2   Show              19295 non-null  object 
 3   Asientos          19295 non-null  object 
 4   Total Boletos     19295 non-null  int64  
 5   Cédula            19295 non-null  object 
 6   Nombre Localidad  19295 non-null  object 
 7   Forma de Pago     19295 non-null  object 
 8   Estado de Pago    15304 non-null  float64
dtypes: float64(1), int64(2), object(6)
memory usage: 1.3+ MB


### Cédula

In [None]:
# Analizemos la columna cedula
df_v1['Cédula'].value_counts()

Unnamed: 0_level_0,count
Cédula,Unnamed: 1_level_1
1101640728,915
1105856197,460
1105434599,455
1104131493,269
,256
...,...
1105029852,1
1105818338,1
1105892465,1
915325575,1


In [None]:
# Vamos a reeplazar esos valores NA por el texto "Anonimo"
df_v1['Cédula'] = df_v1['Cédula'].replace('<NA>', 'Anonimo')

In [None]:
df_v1['Cédula'].value_counts()

Unnamed: 0_level_0,count
Cédula,Unnamed: 1_level_1
1101640728,915
1105856197,460
1105434599,455
1104131493,269
Anonimo,256
...,...
1105029852,1
1105818338,1
1105892465,1
915325575,1


El campo **#** no es necesario

In [None]:
df_v1 = df_v1.drop(columns=['#'])

In [None]:
df_v1.head()

Unnamed: 0,Fecha registro,Show,Asientos,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago
0,03/01/2024 11:14:37 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,H2;\r\n 51F,2,1105434599,CORTESÍAS GOLDEN,Compartido,100.0
1,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,18;\r\n 19,2,1105434599,CORTESÍAS VIP,Compartido,100.0
2,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,14;\r\n 15,2,1105434599,CORTESÍAS VIP,Compartido,100.0
3,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,13,1,1105434599,CORTESÍAS VIP,Compartido,100.0
4,03/01/2024 04:08:14 p. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,11;\r\n 12,2,1100575057,VIP,Compartido,100.0


### Asientos

La columna **Asientos** no provee de informacion relevante puesto que no existe una clasificacion clara de los tipos de asiento y por ende genera ruido innecesario al conjunto

In [None]:
df_v1 = df_v1.drop(columns=['Asientos'])

In [None]:
df_v1.head()

Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago
0,03/01/2024 11:14:37 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,2,1105434599,CORTESÍAS GOLDEN,Compartido,100.0
1,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,2,1105434599,CORTESÍAS VIP,Compartido,100.0
2,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,2,1105434599,CORTESÍAS VIP,Compartido,100.0
3,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,1,1105434599,CORTESÍAS VIP,Compartido,100.0
4,03/01/2024 04:08:14 p. m.,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,2,1100575057,VIP,Compartido,100.0


### Fecha registro

Buscar fechas que no sean compatible con el formato *dd/mm/yyyy hh-mm-ss am/pm*

In [None]:
import re

# Define la expresión regular para el formato deseado Ej: "03/01/2024 11:14:37 a. m."
formato_fecha = r"^\d{2}/\d{2}/\d{4} \d{2}:\d{2}:\d{2} [apAP]\. ?m\.?$"

# Filtra el DataFrame para obtener las filas que NO coincidan con el formato
# Primero, asegúrate de que no hay valores nulos
filas_incorrectas = df_v1[df_v1['Fecha registro'].str.match(formato_fecha)]

# Muestra las filas incorrectas
filas_incorrectas

Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago


### Total Boletos

Buscar valores anomalos en **Total Boletos**

In [None]:
print(df_v1['Total Boletos'].value_counts().sort_index(ascending=True))

Total Boletos
1     5166
2     7713
3     2465
4     1895
5      801
6      214
7       89
8       83
9       25
10     673
11      10
12       3
13       1
15     126
18       1
20      11
22       1
23       1
24       2
25       2
26       1
30       1
50      11
Name: count, dtype: int64


### Nombre Localidad

Corregir algunos nombres en esta columna

In [None]:
df_v1['Nombre Localidad'].unique()

array(['CORTESÍAS GOLDEN', 'CORTESÍAS VIP', 'VIP', 'Golden Box',
       'SALA 3 ocupada', 'BOLETO SOLIDARIO', 'Adhesiones', 'PREFERENCIA',
       'BOLETO GENERAL', 'PALCO', 'TRIBUNA NORTE', 'TRIBUNA SUR',
       'FUNCIÓN 3 21:10PM', 'FUNCIÓN 2 19H00', 'FUNCIÓN 1 16H50 PM.',
       'VENTA OFICIAL', 'PREVENTA ', 'CORTESÍAS', 'SALA 1 3D',
       'SALA 1 2D', 'INSCRIPCIÓN DIGITAL', 'GOLDEN', 'SALA 2',
       'BOLETO PALCO', 'PLATEA ALTA', 'PLATEA BAJA', 'SILLAS DIGITAL',
       'PLATEA MEDIA', 'MESAS GOLDEN', 'PLATINUM', 'SILLAS VIP',
       'PRESIDENTES', 'Sala General'], dtype=object)

In [None]:
df_v1['Nombre Localidad'] = df_v1['Nombre Localidad'].replace('SALA 3 ocupada', 'SALA 3')
df_v1['Nombre Localidad'] = df_v1['Nombre Localidad'].replace('FUNCIÓN 3 21:10PM', 'FUNCIÓN 3')
df_v1['Nombre Localidad'] = df_v1['Nombre Localidad'].replace('FUNCIÓN 2 19H00', 'FUNCIÓN 2')
df_v1['Nombre Localidad'] = df_v1['Nombre Localidad'].replace('FUNCIÓN 1 16H50 PM.', 'FUNCIÓN 1')
df_v1['Nombre Localidad'] = df_v1['Nombre Localidad'].replace('Sala General', 'GENERAL')

# Unir tanto SILLAS VIP con VIP y MESAS GOLDEN con GOLDEN
df_v1['Nombre Localidad'] = df_v1['Nombre Localidad'].replace('SILLAS VIP', 'VIP')
df_v1['Nombre Localidad'] = df_v1['Nombre Localidad'].replace('MESAS GOLDEN', 'GOLDEN')

df_v1['Nombre Localidad'].unique()

array(['CORTESÍAS GOLDEN', 'CORTESÍAS VIP', 'VIP', 'Golden Box', 'SALA 3',
       'BOLETO SOLIDARIO', 'Adhesiones', 'PREFERENCIA', 'BOLETO GENERAL',
       'PALCO', 'TRIBUNA NORTE', 'TRIBUNA SUR', 'FUNCIÓN 3', 'FUNCIÓN 2',
       'FUNCIÓN 1', 'VENTA OFICIAL', 'PREVENTA ', 'CORTESÍAS',
       'SALA 1 3D', 'SALA 1 2D', 'INSCRIPCIÓN DIGITAL', 'GOLDEN',
       'SALA 2', 'BOLETO PALCO', 'PLATEA ALTA', 'PLATEA BAJA',
       'SILLAS DIGITAL', 'PLATEA MEDIA', 'PLATINUM', 'PRESIDENTES',
       'GENERAL'], dtype=object)

In [None]:
df_v1['Nombre Localidad'].unique().size

31

Finalmente quedan **31** categorias

### Estado de Pago

Vamos a operar **Estado de Pago** interpretando 1 como *Completado* y 0 como *Desconocido*

In [None]:
df_v1['Estado de Pago'].unique()

array([100.,  nan])

In [None]:
df_v1['Estado de Pago'] = df_v1['Estado de Pago'].replace(100.0, 1)
df_v1['Estado de Pago'] = df_v1['Estado de Pago'].fillna(0)
df_v1['Estado de Pago'] = df_v1['Estado de Pago'].astype(int)

df_v1['Estado de Pago'].unique()

array([1, 0])

In [None]:
df_v1['Estado de Pago'].value_counts()

Unnamed: 0_level_0,count
Estado de Pago,Unnamed: 1_level_1
1,15304
0,3991


### Show

Vamos a separar las fechas que encontramos en **Show** y vamos a generar una nueva columna con el nombre **FechaShow** que nos pueda aportar nueva información

In [None]:
# Mostrar los 5 primeros
df_v1['Show'].head()

Unnamed: 0,Show
0,CLASSIC ROCK SHOW | 2024-03-15 19:00:00
1,CLASSIC ROCK SHOW | 2024-03-15 19:00:00
2,CLASSIC ROCK SHOW | 2024-03-15 19:00:00
3,CLASSIC ROCK SHOW | 2024-03-15 19:00:00
4,CLASSIC ROCK SHOW | 2024-03-15 19:00:00


Hay valores unicos duplicados puesto que segun la fecha se pudo dar de nuevo el evento

In [None]:
# Identificar duplicados en la columna 'Show'
# Ordenar alfabéticamente los valores únicos de 'Show'
valores_unicos_ordenados = np.sort(df_v1['Show'].unique())

# Imprimir los valores únicos ordenados
print(valores_unicos_ordenados[:10])

['"Súbete al cometa" | 2024-06-21 20:00:00'
 '28ava. Asamblea Nacional | 2024-10-11 08:00:00'
 '28ava. Asamblea Nacional | 2024-10-12 08:00:00'
 '28ava. Asamblea Nacional | 2024-10-13 08:00:00'
 '5K Carrera Inmaculada Concepción Loja 🏃\u200d♀️🏃\u200d♂️ | 2024-09-01 06:00:00'
 'A la sombra del Arupo | 2024-11-23 18:00:00'
 'A pebble falling on a silent lake | 2024-11-16 20:00:00'
 'A pebble falling on a silent lake | 2024-11-17 20:00:00'
 'Abrazos | 2024-11-16 18:30:00' 'Abrazos | 2024-11-17 18:30:00']


Todas las filas de Show poseen una fecha separada como **| 2024-**

In [None]:
df_v1.shape

(19295, 7)

In [None]:
df_v1[df_v1['Show'].str.contains('| 2024-')].shape

(19295, 7)

Separar Show de su Fecha

In [None]:
# Crear una copia del DataFrame
df_procesado = df_v1.copy()

# Función para separar show y fecha
def separar_show_fecha(show):
    # Dividir desde el final usando rsplit para manejar shows con '|' en su nombre
    partes = show.rsplit(' | ', 1)

    # Si se puede separar, devolver nombre del show y fecha
    if len(partes) == 2:
        return partes[0].strip(), partes[1].strip()
    else:
        # Si no se puede separar, devolver el show original y None
        return show, None

# Aplicar la separación
df_procesado[['Show', 'FechaShow']] = df_procesado['Show'].apply(lambda x: pd.Series(separar_show_fecha(x)))

# Verificar resultados
print('EJEMPLO\n')
print("Eventos únicos:")
eventos_unicos = df_procesado['Show'].unique()
print(len(eventos_unicos))

# Mostrar algunos ejemplos de eventos con múltiples fechas
for evento in eventos_unicos[:10]:
    fechas_evento = df_procesado[df_procesado['Show'] == evento]['FechaShow'].unique()
    if len(fechas_evento) > 1:
        print(f"\nEvento: {evento}")
        print(f"Fechas: {fechas_evento}")

EJEMPLO

Eventos únicos:
168

Evento: ¡Demon Slayer: Kimetsu no Yaiba
Fechas: ['2024-02-22 21:00:00' '2024-02-22 18:55:00' '2024-02-22 16:30:00']


In [None]:
df_v1['Show'] = df_procesado['Show']
df_v1['FechaShow'] = df_procesado['FechaShow']

df_v1.head()

Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago,FechaShow
0,03/01/2024 11:14:37 a. m.,CLASSIC ROCK SHOW,2,1105434599,CORTESÍAS GOLDEN,Compartido,1,2024-03-15 19:00:00
1,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW,2,1105434599,CORTESÍAS VIP,Compartido,1,2024-03-15 19:00:00
2,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW,2,1105434599,CORTESÍAS VIP,Compartido,1,2024-03-15 19:00:00
3,03/01/2024 10:20:42 a. m.,CLASSIC ROCK SHOW,1,1105434599,CORTESÍAS VIP,Compartido,1,2024-03-15 19:00:00
4,03/01/2024 04:08:14 p. m.,CLASSIC ROCK SHOW,2,1100575057,VIP,Compartido,1,2024-03-15 19:00:00


In [None]:
df_v1.shape

(19295, 8)

In [None]:
df_v1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19295 entries, 0 to 19294
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Fecha registro    19295 non-null  object
 1   Show              19295 non-null  object
 2   Total Boletos     19295 non-null  int64 
 3   Cédula            19295 non-null  object
 4   Nombre Localidad  19295 non-null  object
 5   Forma de Pago     19295 non-null  object
 6   Estado de Pago    19295 non-null  int64 
 7   FechaShow         19295 non-null  object
dtypes: int64(2), object(6)
memory usage: 1.2+ MB


In [None]:
df_v1['Show'].value_counts()

Unnamed: 0_level_0,count
Show,Unnamed: 1_level_1
Noches de Feria | Los Nocheros,991
LA MOSCA🎸,695
CORAZÓN SERRANO❤️,680
Libertad Vs B.S.C⚽,653
Un hombre muerto a puntapiés,500
...,...
PRUEBA,2
TARDE DE CHICAS 2,1
"""Súbete al cometa""",1
EVENTO DONATIVO💖,1


Existen 205 fechas en las que se ha dado eventos

In [None]:
df_v1['FechaShow'].value_counts()

Unnamed: 0_level_0,count
FechaShow,Unnamed: 1_level_1
2024-09-14 20:00:00,1134
2024-11-15 20:00:00,703
2024-08-30 20:00:00,695
2024-09-06 20:00:00,680
2024-04-14 18:00:00,653
...,...
2024-10-26 10:00:00,1
2024-10-26 12:30:00,1
2024-07-20 20:00:00,1
2024-10-25 12:30:00,1


Eliminamos las dos filas con el nombre de Show "PRUEBA"

In [None]:
df_v1 = df_v1[df_v1['Show'] != 'PRUEBA']

In [None]:
df_v1['Show'].value_counts()

Unnamed: 0_level_0,count
Show,Unnamed: 1_level_1
Noches de Feria | Los Nocheros,991
LA MOSCA🎸,695
CORAZÓN SERRANO❤️,680
Libertad Vs B.S.C⚽,653
Un hombre muerto a puntapiés,500
...,...
FESTIVAL DE LA CHICHA,2
Festival deportivo de 3X3 Basketball🏀,1
TARDE DE CHICAS 2,1
EVENTO DONATIVO💖,1


In [None]:
df_v1['FechaShow'].value_counts()

Unnamed: 0_level_0,count
FechaShow,Unnamed: 1_level_1
2024-09-14 20:00:00,1134
2024-11-15 20:00:00,703
2024-08-30 20:00:00,695
2024-09-06 20:00:00,680
2024-04-14 18:00:00,653
...,...
2024-10-25 12:30:00,1
2024-03-10 17:00:00,1
2024-04-27 17:00:00,1
2024-07-20 20:00:00,1


Finalmente nos quedan **167** valores unicos en *Show* y **204** valores unicos en fechas donde se dieron shows

### Forma de Pago

Finalmente para la columna Forma de Pago vamos a darle un tratamiento especial, puesto que nos percatamos que las personas que compraron y compartieron sus coletos tienen el registro repetido 2 veces (con la forma de pago con la que compraron el boleto y otra con la forma de pago "Compartido") por ello proponemos la solución de añadir una nueva columna "EsCompartido" (con 0 para NO y 1 para SI) a todos los registros que tengan la forma de pago "Compartido" y eliminar los registros duplicados con esta forma de pago.

Adicional se va a reducir la categorización de:
- Efectivo
- Payphone
- Wallet
- DeUna
- Ahorita

a la siguiente categorización más general para tener una mejor segmentación futura:
- Payphone (Payphone, Efectivo)
- AppsExternas (DeUna, Ahorita)
- Wallet

In [None]:
# Observar la duplicacion en boletos que se compraron y compartieron
df_v1[df_v1['Cédula'] == '1105968794']

Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago,FechaShow
9671,14/09/2024 05:03:27 p. m.,Noches de Feria | Los Nocheros,1,1105968794,BOLETO GENERAL,Compartido,0,2024-09-14 20:00:00
9675,14/09/2024 05:03:27 p. m.,Noches de Feria | Los Nocheros,1,1105968794,BOLETO GENERAL,PayPhone,0,2024-09-14 20:00:00


#### Crear columna EsCompartido

In [None]:
# Paso 1: Identificar las filas que tienen la forma de pago "Compartido"
# y luego asociar ambas filas con la misma Cédula como 'Compartido' para esa persona

# Crear la columna EsCompartido
df_v1['EsCompartido'] = df_v1['Forma de Pago'].apply(lambda x: 1 if x == 'Compartido' else 0)

# Paso 2: Para cada persona (Cédula), si tiene una fila con "Compartido" y otra con otro tipo de pago,
# marcar ambas filas con "EsCompartido" como 1 (solo para las filas con la misma Cédula)
cedula_con_compartido = df_v1[df_v1['Forma de Pago'] == 'Compartido']['Cédula'].unique()

# Marcar "EsCompartido" en todas las filas con la misma Cédula
df_v1.loc[df_v1['Cédula'].isin(cedula_con_compartido), 'EsCompartido'] = 1

# Paso 3: Eliminar las filas con "Compartido" ya que no son necesarias
df_v1 = df_v1[df_v1['Forma de Pago'] != 'Compartido']


In [None]:
# Persona que compartio su boleto
df_v1[df_v1['Cédula'] == '1105968794']

Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago,FechaShow,EsCompartido
9675,14/09/2024 05:03:27 p. m.,Noches de Feria | Los Nocheros,1,1105968794,BOLETO GENERAL,PayPhone,0,2024-09-14 20:00:00,1


In [None]:
# Persona que no compartio su boleto
df_v1[df_v1['Cédula'] == '1900532365']

Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago,FechaShow,EsCompartido
9012,13/09/2024 08:53:22 p. m.,Noches de Feria | Los Nocheros,3,1900532365,BOLETO GENERAL,PayPhone,0,2024-09-14 20:00:00,0


Se eliminarion **3304** registros duplicados

In [None]:
df_v1.shape

(15989, 9)

#### Reducir la categorización

In [None]:
df_v1['Forma de Pago'].unique()

array(['Wallet', 'PayPhone', 'Deuna V2', 'Ahorita', 'Efectivo'],
      dtype=object)

In [None]:
df_v1['Forma de Pago'] = df_v1['Forma de Pago'].replace('Efectivo', 'PayPhone')
df_v1['Forma de Pago'] = df_v1['Forma de Pago'].replace('Deuna V2', 'AppExterna')
df_v1['Forma de Pago'] = df_v1['Forma de Pago'].replace('Ahorita', 'AppExterna')

df_v1['Forma de Pago'].unique()

array(['Wallet', 'PayPhone', 'AppExterna'], dtype=object)

In [None]:
df_v1['Forma de Pago'].value_counts()

Unnamed: 0_level_0,count
Forma de Pago,Unnamed: 1_level_1
PayPhone,6797
Wallet,4731
AppExterna,4461


In [None]:
df_v1.shape

(15989, 9)

### TipoShow

Como paso adicional se decidio crear manualmente una categorizacion para los shows, es decir que cada uno pertenezca a un grupo, esto sera vital para obtener una mejor segmentación final

#### Limpiar Duplicidad

Antes de nada vamos a hacer una limpieza de valores duplicados en Show que han sido detectados mediante un analisis visual de los valores unicos en Shows

In [None]:
df_v1[df_v1['Show'].str.contains('EVENTO DONATIVO')].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,EVENTO DONATIVO,8
1,EVENTO DONATIVO💖,1


In [None]:
df_v1['Show'] = df_v1['Show'].replace('EVENTO DONATIVO💖', 'EVENTO DONATIVO')
df_v1[df_v1['Show'].str.contains('EVENTO DONATIVO')].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,EVENTO DONATIVO,9


In [None]:
df_v1[df_v1['Show'].str.contains('JORGE GUZMÁN VS BARCELONA')].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,JORGE GUZMÁN VS BARCELONA | Jueves.🏀,176
1,JORGE GUZMÁN VS BARCELONA.🏀,127


In [None]:
df_v1['Show'] = df_v1['Show'].replace('JORGE GUZMÁN VS BARCELONA | Jueves.🏀', 'JORGE GUZMÁN VS BARCELONA.🏀')
df_v1[df_v1['Show'].str.contains('JORGE GUZMÁN VS BARCELONA')].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,JORGE GUZMÁN VS BARCELONA.🏀,303


In [None]:
df_v1[df_v1['Show'].str.contains('JORGE GUZMÁN VS SPARTANS')].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,"JORGE GUZMÁN VS SPARTANS, SÁBADO 31/08/24🏀",82
1,JORGE GUZMÁN VS SPARTANS.🏀LUNES 02/09/24,70
2,JORGE GUZMÁN VS SPARTANS🏀,138


In [None]:
df_v1['Show'] = df_v1['Show'].replace('JORGE GUZMÁN VS SPARTANS, SÁBADO 31/08/24🏀', 'JORGE GUZMÁN VS SPARTANS🏀')
df_v1['Show'] = df_v1['Show'].replace('JORGE GUZMÁN VS SPARTANS.🏀LUNES 02/09/24', 'JORGE GUZMÁN VS SPARTANS🏀')
df_v1[df_v1['Show'].str.contains('JORGE GUZMÁN VS SPARTANS')].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,JORGE GUZMÁN VS SPARTANS🏀,290


In [None]:
df_v1[df_v1['Show'].str.contains('JORGE GUZMÁN VS ZAMORA JAGUARS|JORGE GUZMÁN VSZAMORA JAGUARS')].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,"JORGE GUZMÁN VS ZAMORA JAGUARS, LUNES 07/10/24🏀",205
1,"JORGE GUZMÁN VS ZAMORA JAGUARS, SÁBADO 28/09/24🏀",275
2,JORGE GUZMÁN VS ZAMORA JAGUARS🏀,135
3,JORGE GUZMÁN VSZAMORA JAGUARS.🏀LUNES 30/09/24,272


In [None]:
df_v1['Show'] = df_v1['Show'].replace('JORGE GUZMÁN VS ZAMORA JAGUARS, LUNES 07/10/24🏀', 'JORGE GUZMÁN VS ZAMORA JAGUARS🏀')
df_v1['Show'] = df_v1['Show'].replace('JORGE GUZMÁN VS ZAMORA JAGUARS, SÁBADO 28/09/24🏀', 'JORGE GUZMÁN VS ZAMORA JAGUARS🏀')
df_v1['Show'] = df_v1['Show'].replace('JORGE GUZMÁN VSZAMORA JAGUARS.🏀LUNES 30/09/24', 'JORGE GUZMÁN VS ZAMORA JAGUARS🏀')

df_v1[df_v1['Show'].str.contains('JORGE GUZMÁN VS ZAMORA JAGUARS|JORGE GUZMÁN VSZAMORA JAGUARS')].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,JORGE GUZMÁN VS ZAMORA JAGUARS🏀,887


In [None]:
df_v1[df_v1['Show'].str.contains("Papeloplinoplis: 'El Duende")].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,Papeloplinoplis: 'El Duende Come Libros',80
1,Papeloplinoplis: 'El Duende come Libros',72


In [None]:
df_v1['Show'] = df_v1['Show'].replace("Papeloplinoplis: 'El Duende come Libros'", "Papeloplinoplis: 'El Duende Come Libros'")
df_v1[df_v1['Show'].str.contains("Papeloplinoplis: 'El Duende")].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,Papeloplinoplis: 'El Duende Come Libros',152


Vamos a eliminar la fecha innecesaria que tiene TAQUILLA GENERAL

In [None]:
df_v1[df_v1['Show'].str.contains("TAQUILLA GENERAL")].groupby(['Show', 'FechaShow']).size().reset_index(name='counts')

Unnamed: 0,Show,FechaShow,counts
0,TAQUILLA GENERAL | Domingo 01/09/24,2024-09-01 10:00:00,95
1,TAQUILLA GENERAL | Domingo 08/09/24,2024-09-08 10:00:00,275
2,TAQUILLA GENERAL | Domingo 15/09/24,2024-09-15 10:00:00,165
3,TAQUILLA GENERAL | JUEVES 18/09/24,2024-09-19 10:00:00,10
4,TAQUILLA GENERAL | Jueves 05/09/24,2024-09-05 10:00:00,10
5,TAQUILLA GENERAL | Jueves 12/09/24,2024-09-12 10:00:00,3
6,TAQUILLA GENERAL | LUNES 16/09/24,2024-09-16 10:00:00,23
7,TAQUILLA GENERAL | Lunes 02/09/24,2024-09-02 10:00:00,23
8,TAQUILLA GENERAL | Lunes 09/09/24,2024-09-09 10:00:00,12
9,TAQUILLA GENERAL | MARTES 17/09/24,2024-09-17 10:00:00,12


In [None]:
# Filtrar solo las filas que contienen 'TAQUILLA GENERAL'
mask = df_v1['Show'].str.contains("TAQUILLA GENERAL")

# Eliminar la parte de la fecha en 'Show' solo para las filas que contienen 'TAQUILLA GENERAL'
df_v1.loc[mask, 'Show'] = df_v1.loc[mask, 'Show'].str.replace(r'\|.*', '', regex=True).str.strip()

# Ahora realizar el groupby con la columna 'Show' y 'FechaShow'
result = df_v1[mask].groupby(['Show', 'FechaShow']).size().reset_index(name='counts')

# Mostrar el resultado
result

Unnamed: 0,Show,FechaShow,counts
0,TAQUILLA GENERAL,2024-08-30 10:00:00,16
1,TAQUILLA GENERAL,2024-08-31 10:00:00,33
2,TAQUILLA GENERAL,2024-09-01 10:00:00,95
3,TAQUILLA GENERAL,2024-09-02 10:00:00,23
4,TAQUILLA GENERAL,2024-09-03 10:00:00,10
5,TAQUILLA GENERAL,2024-09-04 12:00:00,25
6,TAQUILLA GENERAL,2024-09-05 10:00:00,10
7,TAQUILLA GENERAL,2024-09-06 10:00:00,10
8,TAQUILLA GENERAL,2024-09-07 10:00:00,103
9,TAQUILLA GENERAL,2024-09-08 10:00:00,275


TAQUILLA GENERAL perdio esa duplicidad

In [None]:
df_v1[df_v1['Show'].str.contains("TAQUILLA GENERAL")].groupby('Show').size().reset_index(name='counts')

Unnamed: 0,Show,counts
0,TAQUILLA GENERAL,1339


---

<br>

Esas son todas las duplicidades que se han podido hallar de manera manual, quedando un numero final de **136** valores unicos

In [None]:
df_v1['Show'].value_counts()

Unnamed: 0_level_0,count
Show,Unnamed: 1_level_1
TAQUILLA GENERAL,1339
JORGE GUZMÁN VS ZAMORA JAGUARS🏀,887
Noches de Feria | Los Nocheros,806
LA MOSCA🎸,599
Libertad Vs B.S.C⚽,532
...,...
FESTIVAL DE LA CHICHA,2
Curso Fotografía de Productos📸,2
TARDE DE CHICAS 2,1
"""Súbete al cometa""",1


In [None]:
df_v1.shape

(15989, 9)

#### Categorizacion de los shows

In [None]:
# Carga de los datos de shows con categorías desde el archivo proporcionado
categorias = pd.read_excel("/content/drive/MyDrive/Proyectos/Segmentacion-AnalisisMercado-Clipp/Datasets/Oficiales_Clipp_NO_COMPARTIR/Limpieza/shows_por_categoria.xlsx")
categorias.columns = ['Name', 'TipoShow']

# Mapeo para agregar la columna TipoShow
categoria_dict = dict(zip(categorias['Name'], categorias['TipoShow']))
df_v1['TipoShow'] = df_v1['Show'].map(categoria_dict)

# Revisa los cambios
df_v1

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago,FechaShow,EsCompartido,TipoShow
36,25/01/2024 04:23:31 p. m.,TARDE CLIPP,1,Anonimo,SALA 3,Wallet,1,2024-03-01 15:00:00,1,Otro
38,25/01/2024 04:15:41 p. m.,TARDE CLIPP,2,704573641,SALA 3,Wallet,1,2024-03-01 15:00:00,0,Otro
39,25/01/2024 04:15:30 p. m.,TARDE CLIPP,1,1105434599,SALA 3,Wallet,1,2024-03-01 15:00:00,1,Otro
40,25/01/2024 04:13:18 p. m.,TARDE CLIPP,1,1104616204,SALA 3,Wallet,1,2024-03-01 15:00:00,1,Otro
41,25/01/2024 04:10:37 p. m.,TARDE CLIPP,1,1105008948,SALA 3,Wallet,1,2024-03-01 15:00:00,1,Otro
...,...,...,...,...,...,...,...,...,...,...
19289,08/11/2024 05:23:46 p. m.,Anemoi,2,1105777682,PALCO,AppExterna,1,2024-11-21 20:00:00,0,Teatro
19290,08/11/2024 05:23:11 p. m.,Cuarteto de Saxofón y Sinfónica Philip Glass,2,1104657307,PLATEA MEDIA,AppExterna,1,2024-11-15 20:00:00,1,Concierto
19291,08/11/2024 05:22:30 p. m.,Un hombre muerto a puntapiés,2,1103781694,PLATEA BAJA,AppExterna,1,2024-11-18 20:00:00,0,Teatro
19293,08/11/2024 05:17:57 p. m.,A pebble falling on a silent lake,2,1105777682,PLATEA MEDIA,AppExterna,1,2024-11-16 20:00:00,0,Teatro


In [None]:
df_v1['TipoShow'].value_counts()

Unnamed: 0_level_0,count
TipoShow,Unnamed: 1_level_1
Concierto,4893
Teatro,4382
Deporte,4187
Ferias,1437
Cine,743
Talleres,247
Otro,78
Donación,22


In [None]:
df_v1.groupby(['Show', 'TipoShow']).size().reset_index(name='counts')

Unnamed: 0,Show,TipoShow,counts
0,"""Súbete al cometa""",Concierto,1
1,28ava. Asamblea Nacional,Talleres,34
2,5K Carrera Inmaculada Concepción Loja 🏃‍♀️🏃‍♂️,Deporte,44
3,A la sombra del Arupo,Teatro,112
4,A pebble falling on a silent lake,Teatro,322
...,...,...,...
131,🎶 ALZATE🎤,Concierto,139
132,🎶 TRANZAS🎸,Concierto,10
133,🏁 RALLY PROVINCIA DE LOJA🏎️,Deporte,157
134,🪗CARNAVALITO🤹🏻‍♀️,Concierto,14


Una vez categorizados nuestros Shows solo nos queda estandarizar los valores de los Shows para eliminar Emojis, Caracteres especiales, entre otros

In [None]:
import re
import unicodedata

# Función para estandarizar los valores en la columna Show
def estandarizar_show(show):
    if not isinstance(show, str):
        return show  # Maneja valores nulos o no strings
    # Eliminar caracteres especiales y emojis
    show = re.sub(r'[^\w\s]', '', show)  # Conserva solo letras, números y espacios
    # Normalizar tildes a su versión sin tilde
    show = unicodedata.normalize('NFD', show).encode('ascii', 'ignore').decode('utf-8')
    # Eliminar espacios adicionales al inicio y final
    show = show.strip()
    return show

# Aplicar la función a la columna Show
df_v1['Show'] = df_v1['Show'].apply(estandarizar_show)

In [None]:
df_v1['Show'].value_counts()

Unnamed: 0_level_0,count
Show,Unnamed: 1_level_1
TAQUILLA GENERAL,1339
JORGE GUZMAN VS ZAMORA JAGUARS,887
Noches de Feria Los Nocheros,806
LA MOSCA,599
Libertad Vs BSC,532
...,...
FESTIVAL DE LA CHICHA,2
Curso Fotografia de Productos,2
TARDE DE CHICAS 2,1
Subete al cometa,1


In [None]:
df_v1['Show'].unique()

array(['TARDE CLIPP', 'CLASSIC ROCK SHOW', 'GRAN RIFA SOLIDARIA',
       'Chiky band', 'Strong Heart', 'EXPLOSION NARANJA', 'PRIOSTES',
       'Demon Slayer Kimetsu no Yaiba', 'CARNAVALITO',
       'Curso Fotografia de Productos', 'Libertad Vs Tecnico U', 'CLIPP',
       'EVENTO DONATIVO', 'Libertad Vs U Catolica', 'Kung fu Panda 4',
       'INTER COLEGIAL', 'INTER ESCOLAR', 'Libertad Vs BSC',
       'LA ULTIMA ESPERANZA', 'La Inocente', 'Libertad Vs LDU',
       'Libertad Vs Orense', 'Festival deportivo de 3X3 Basketball',
       'TARDE DE CHICAS 2', 'COLECTA SOLIDARIA', 'INTENSAMENTE 2',
       'Jorge Guzman VS San Antonio de Gold', 'Libertad Vs Dep Cuenca',
       'DISCO PARTY', 'Libertad Vs Nacional', 'JORGE GUZMAN VS SPARTANS',
       'JORGE GUZMAN VS CUENCA BC', 'DESAYUNO EMPRESARIAL',
       'JORGE GUZMAN VS IMP ALVARADO',
       'Don Medardo y sus Players  Mauricio Luzuriaga',
       'Subete al cometa', 'CAMPEONATO INTERNO CLIPP',
       'JORGE GUZMAN VS CC MANABI', 'JORGE GUZM

---

### Conjunto de datos final limpio

Aplicado todo el proceso de limpieza el conjunto de datos limpio se presenta a continuacion

In [None]:
# Antes
df_base

Unnamed: 0,#,Fecha registro,Show,Asientos,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago
0,1.0,2024-01-03 11:14:37,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,H2;\n 51F,2,1105434599,CORTESÍAS GOLDEN,Compartido,100.0
1,2.0,2024-01-03 10:20:42,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,18;\n 19,2,1105434599,CORTESÍAS VIP,Compartido,100.0
2,3.0,2024-01-03 10:20:42,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,14;\n 15,2,1105434599,CORTESÍAS VIP,Compartido,100.0
3,4.0,2024-01-03 10:20:42,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,13,1,1105434599,CORTESÍAS VIP,Compartido,100.0
4,5.0,2024-01-03 16:08:14,CLASSIC ROCK SHOW | 2024-03-15 19:00:00,11;\n 12,2,1100575057,VIP,Compartido,100.0
...,...,...,...,...,...,...,...,...,...
19583,19584.0,2024-11-08 17:22:30,Un hombre muerto a puntapiés | 2024-11-18 20:0...,20D;\n 19D,2,1103781694,Plat. Baja centro,Ahorita,100.0
19584,19585.0,2024-11-08 09:12:07,MEDEAS | 2024-11-20 20:00:00,20E,1,1102842349,Plat. Baja Centro,Compartido,100.0
19585,19586.0,2024-11-08 17:17:57,A pebble falling on a silent lake | 2024-11-16...,20DD;\n 19DD,2,1105777682,Plat. Media Centro,Ahorita,100.0
19586,19587.0,2024-11-08 17:15:05,MEDEAS | 2024-11-20 20:00:00,19EE;\n 20EE;\n 21EE,3,1105777682,Plat. Media Centro,Ahorita,100.0


In [None]:
# Ahora
df_v1

Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago,FechaShow,EsCompartido,TipoShow
36,25/01/2024 04:23:31 p. m.,TARDE CLIPP,1,Anonimo,SALA 3,Wallet,1,2024-03-01 15:00:00,1,Otro
38,25/01/2024 04:15:41 p. m.,TARDE CLIPP,2,704573641,SALA 3,Wallet,1,2024-03-01 15:00:00,0,Otro
39,25/01/2024 04:15:30 p. m.,TARDE CLIPP,1,1105434599,SALA 3,Wallet,1,2024-03-01 15:00:00,1,Otro
40,25/01/2024 04:13:18 p. m.,TARDE CLIPP,1,1104616204,SALA 3,Wallet,1,2024-03-01 15:00:00,1,Otro
41,25/01/2024 04:10:37 p. m.,TARDE CLIPP,1,1105008948,SALA 3,Wallet,1,2024-03-01 15:00:00,1,Otro
...,...,...,...,...,...,...,...,...,...,...
19289,08/11/2024 05:23:46 p. m.,Anemoi,2,1105777682,PALCO,AppExterna,1,2024-11-21 20:00:00,0,Teatro
19290,08/11/2024 05:23:11 p. m.,Cuarteto de Saxofon y Sinfonica Philip Glass,2,1104657307,PLATEA MEDIA,AppExterna,1,2024-11-15 20:00:00,1,Concierto
19291,08/11/2024 05:22:30 p. m.,Un hombre muerto a puntapies,2,1103781694,PLATEA BAJA,AppExterna,1,2024-11-18 20:00:00,0,Teatro
19293,08/11/2024 05:17:57 p. m.,A pebble falling on a silent lake,2,1105777682,PLATEA MEDIA,AppExterna,1,2024-11-16 20:00:00,0,Teatro


Finalizamos con un total de **15,989** filas y **10** columnas

In [None]:
df_v1.shape

(15989, 10)

In [None]:
df_v1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 15989 entries, 36 to 19294
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Fecha registro    15989 non-null  object
 1   Show              15989 non-null  object
 2   Total Boletos     15989 non-null  int64 
 3   Cédula            15989 non-null  object
 4   Nombre Localidad  15989 non-null  object
 5   Forma de Pago     15989 non-null  object
 6   Estado de Pago    15989 non-null  int64 
 7   FechaShow         15989 non-null  object
 8   EsCompartido      15989 non-null  int64 
 9   TipoShow          15989 non-null  object
dtypes: int64(3), object(7)
memory usage: 1.8+ MB


In [None]:
# Una consulta de cedula
df_v1[df_v1['Cédula'] == '1105968794']

Unnamed: 0,Fecha registro,Show,Total Boletos,Cédula,Nombre Localidad,Forma de Pago,Estado de Pago,FechaShow,EsCompartido,TipoShow
9675,14/09/2024 05:03:27 p. m.,Noches de Feria Los Nocheros,1,1105968794,BOLETO GENERAL,PayPhone,0,2024-09-14 20:00:00,1,Concierto


In [None]:
# Exportar el DataFrame a un archivo CSV
ruta_csv = "datalimpia_1.csv"
df_v1.to_csv(ruta_csv, index=False, encoding='utf-8')  # Usa 'utf-8' para soportar caracteres especiales
print(f"Archivo CSV guardado en: {ruta_csv}")

Archivo CSV guardado en: datalimpia.csv
