# DESARROLLO DEL ANALÍSIS DE DATOS DE LA POMPA
###### <p style="text-align: right;">Jorge Avilés</p>

## *configuraciones*

In [1]:
import pandas as pd
pd.set_option('display.max_rows', 25)


In [2]:
# Ruta al archivo
file_path = 'data/total_sevicios_clientes_fieles_pompa.xlsx'

# Cargar el archivo Excel en un DataFrame
df = pd.read_excel(file_path)

# Ver las primeras filas del DataFrame
df.head()


Unnamed: 0,AÑO,NOMBRE COMPLETO,# SERVICIOS
0,2023,EDGAR RUIZ,7
1,2023,ALBERTO CAMAL,5
2,2023,FANNY FIGUEROA,6
3,2023,LILIANA N,6
4,2023,ADRIAN CAMPOS,6


In [3]:
# Obtener los años únicos en la columna 'AÑO'
años_unicos = df['AÑO'].unique()

# Mostrar los años únicos
print("Años presentes en la base de datos:", años_unicos)

Años presentes en la base de datos: [2023 2024]


In [4]:
# Ordenar por la columna '# SERVICIO' en orden descendente y mostrar las primeras 10 filas
top_10_personas = df.sort_values(by='# SERVICIOS', ascending=False).head(10)

# Mostrar el resultado
#print(top_10_personas[['NOMBRE COMPLETO', '# SERVICIOS']])
top_10_personas.head(24)

Unnamed: 0,AÑO,NOMBRE COMPLETO,# SERVICIOS
110,2023,ALEXANDER PECMAN,1927
801,2023,LESIA GROOVER,1340
743,2023,CRISTHIAN RODRIGUEZ ORTEGA,1008
919,2024,ALEXANDER PECMAN,576
928,2024,LESIA GROOVER,421
835,2023,VALERIA MECADER,418
787,2023,ARON SANZORES,330
907,2024,CRISTHIAN RODRIGUEZ ORTEGA,283
753,2023,ALEXANDRO ORTEGA,223
934,2024,VALERIA MECADER,162


In [5]:
resultados_por_año = {}

for año in años_unicos:
    # Filtrar por el año actual
    df_año = df[df['AÑO'] == año]
    
    # Ordenar y obtener las 25 personas con más servicios
    top = df_año.sort_values(by='# SERVICIOS', ascending=False).head(25)
    
    # Restablecer el índice y empezar desde 1
    top.reset_index(drop=True, inplace=True)
    top.index += 1  # Ajustar el índice para que empiece en 1

    # Almacenar el resultado en el diccionario
    resultados_por_año[año] = top[['NOMBRE COMPLETO', '# SERVICIOS']]

# Mostrar las tablas para cada año
for año, tabla in resultados_por_año.items():
    print(f"\nTop {len(tabla)} personas con más servicios en {año}:")
    print(tabla)


Top 25 personas con más servicios en 2023:
               NOMBRE COMPLETO  # SERVICIOS
1            ALEXANDER PECMAN          1927
2               LESIA GROOVER          1340
3   CRISTHIAN RODRIGUEZ ORTEGA         1008
4             VALERIA MECADER           418
5               ARON SANZORES           330
6            ALEXANDRO ORTEGA           223
7             ALEJANDRA XACUR           124
8              FDERICO AVALOS           114
9               GABER PERALES           108
10            ERNESTO GARRIDO           105
11               NOE CORRALES            76
12       NO PROPORCIONO DATOS            73
13             ROBERTO BARGAS            63
14                GABY ORTEGA            51
15             DANIEL CANSECO            39
16            RAFAEL BERZUNZA            38
17             HUGO RODRIGUEZ            35
18              PABLO MENDOZA            33
19             JESSICA SAIDEN            33
20    RICARDO TAPIA VILLANUEVA           32
21             JAVIER ESPADAS   

In [6]:
# Agrupar por 'NOMBRE COMPLETO' y contar las ocurrencias
repeticiones = df.groupby('NOMBRE COMPLETO').size().reset_index(name='Cantidad')

# Ordenar por la cantidad de repeticiones en orden descendente
repeticiones = repeticiones.sort_values(by='Cantidad', ascending=False)

# Mostrar la tabla con las personas que más se repiten
print("Personas que más se repiten en los diferentes años:")
print(repeticiones)

Personas que más se repiten en los diferentes años:
                   NOMBRE COMPLETO  Cantidad
903                      NO DATOS        101
908          NO PROPORCIONO DATOS         13
911   NO QUISO PROPORCIONAR DATOS          8
904                         NO DT          8
1016               ROBERTO GERMON          5
...                            ...       ...
438                 GILBERTO LUNA          1
439                  GILDA CAMARA          1
440                  GILDA MORLET          1
441                GLADYS PACHECO          1
1131               YELIANA ANDARA          1

[1132 rows x 2 columns]


In [7]:
# Eliminar las entradas donde 'NOMBRE COMPLETO' esté vacío
df = df[df['NOMBRE COMPLETO'].notna()]

# O también puedes usar dropna
# df.dropna(subset=['NOMBRE COMPLETO'], inplace=True)

# Mostrar el DataFrame resultante después de la limpieza
print("Base de datos después de eliminar entradas con nombres vacíos:")
print(df)

Base de datos después de eliminar entradas con nombres vacíos:
       AÑO     NOMBRE COMPLETO  # SERVICIOS
0     2023         EDGAR RUIZ             7
1     2023      ALBERTO CAMAL             5
2     2023     FANNY FIGUEROA             6
3     2023          LILIANA N             6
4     2023      ADRIAN CAMPOS             6
...    ...                 ...          ...
1554  2024        GASPAR PECH             5
1555  2024        RAUL HAUSER             5
1556  2024  MARGARITA VERMONT             6
1557  2024         ERNESTO NO             5
1558  2024           MIRNA NO             5

[1559 rows x 3 columns]


In [8]:
import pandas as pd

# Ruta al archivo
file_path = 'data/total_sevicios_clientes_fieles_pompa.xlsx'

# Cargar el archivo Excel en un DataFrame
df = pd.read_excel(file_path)

# Eliminar las entradas donde 'NOMBRE COMPLETO' esté vacío
df = df[df['NOMBRE COMPLETO'].notna()]

# Guardar el DataFrame actualizado en el mismo archivo
df.to_excel(file_path, index=False)

# Mostrar un mensaje de confirmación
print("Las entradas con nombres vacíos han sido eliminadas y el archivo ha sido actualizado.")


Las entradas con nombres vacíos han sido eliminadas y el archivo ha sido actualizado.


In [9]:
# Agrupar por 'NOMBRE COMPLETO' y contar las ocurrencias
repeticiones = df.groupby('NOMBRE COMPLETO').size().reset_index(name='Cantidad')

# Ordenar por la cantidad de repeticiones en orden descendente
repeticiones = repeticiones.sort_values(by='Cantidad', ascending=False)

# Mostrar la tabla con las personas que más se repiten
print("Personas que más se repiten en los diferentes años:")
print(repeticiones)

Personas que más se repiten en los diferentes años:
                   NOMBRE COMPLETO  Cantidad
903                      NO DATOS        101
908          NO PROPORCIONO DATOS         13
911   NO QUISO PROPORCIONAR DATOS          8
904                         NO DT          8
1016               ROBERTO GERMON          5
...                            ...       ...
438                 GILBERTO LUNA          1
439                  GILDA CAMARA          1
440                  GILDA MORLET          1
441                GLADYS PACHECO          1
1131               YELIANA ANDARA          1

[1132 rows x 2 columns]


###  eliminar a las personas con número de servicios anómalos

In [10]:
# Establecer un límite razonable para el número de servicios por año
limite_servicios = 100

# Eliminar las entradas donde '# SERVICIOS' sea mayor que el límite establecido
df = df[df['# SERVICIOS'] <= limite_servicios]

# Guardar el DataFrame actualizado en el mismo archivo
df.to_excel(file_path, index=False)

# Mostrar un mensaje de confirmación
print(f"Las entradas con más de {limite_servicios} servicios han sido eliminadas y el archivo ha sido actualizado.")

Las entradas con más de 100 servicios han sido eliminadas y el archivo ha sido actualizado.


In [22]:
def mostrar_repeticiones(df):
    # Agrupar por 'NOMBRE COMPLETO' y 'AÑO', y contar los servicios
    repeticiones = df.groupby(['NOMBRE COMPLETO', 'AÑO']).agg(Cantidad=('NOMBRE COMPLETO', 'size')).reset_index()

    # Pivotar la tabla para que cada año sea una columna
    pivot_table = repeticiones.pivot_table(index='NOMBRE COMPLETO', columns='AÑO', values='Cantidad', fill_value=0)

    # Calcular el total de servicios por persona
    pivot_table['Total'] = pivot_table.sum(axis=1)

    # Ordenar por total de servicios en orden descendente
    pivot_table = pivot_table.sort_values(by='Total', ascending=False)

    # Restablecer el índice para convertir los nombres de las filas en una columna
    pivot_table.reset_index(inplace=True)

    # Mostrar la tabla final
    print("Servicios realizados por cada persona en cada año y total (ordenados por total de servicios):")
    print(pivot_table)

# Llamar a la función después de cargar y limpiar tu DataFrame
# Ejemplo de uso:
# df = pd.read_excel(file_path)  # Asegúrate de haber cargado el DataFrame previamente
# mostrar_repeticiones(df)

In [23]:
mostrar_repeticiones(df)

Servicios realizados por cada persona en cada año y total (ordenados por total de servicios):
AÑO                NOMBRE COMPLETO  2023  2024  Total
0                        NO DATOS      6    95    101
1            NO PROPORCIONO DATOS      6     7     13
2                           NO DT      0     8      8
3     NO QUISO PROPORCIONAR DATOS      7     1      8
4                  ROBERTO GERMON      2     3      5
...                            ...   ...   ...    ...
1122         GERMAN VELAZQUEZ LARA     0     1      1
1123            GERONIMO CASTILLO      1     0      1
1124                 GERSON ORTIZ      0     1      1
1125                GILBERTO LUNA      0     1      1
1126               YELIANA ANDARA      1     0      1

[1127 rows x 4 columns]


In [1]:
git --version

NameError: name 'git' is not defined