<a href="https://colab.research.google.com/github/Ian326/TI3001C/blob/main/E5_Construcci%C3%B3n_y_transformaci%C3%B3n_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Recolección y descripción de datos
---
***Equipo:***

**Ruth Jiménez Vázquez - A01351923**

**José Ignacio Gómez Moreno - A01067362**

**Harry Hernández Grande - A01736341**

**Ian Joab Padrón Corona - A01708940**

---



## Carga de datos

In [None]:
'''
===============================================================================
Librerias de Python a utilizar en el proyecto
===============================================================================
pandas: Libreria de manipulacion de datos en DataFrames
numpy: Libreria de manipulacion de datos en arrays o funciones matematicas
missingno: Libreria de visualizacion de datos nulos
CountEncoder: Convertir variables categoricas en numericas asignandoles un valor de acuerdo a su relevancia
OneHotEncoder: Convertir variables categoricas en numericas creando columnas binarias
matplotlib: Libreria de visualizacion de datos a traves de graficos
seaborn: Libreria de visualizacion de datos a traves de graficos. (Extension de matplotlib)
PowerTransformer: Transformar variables numericas a traves de una transformacion de potencia. Para normalizar los datos
'''

import pandas as pd
import numpy as np

import missingno as msno

from category_encoders import CountEncoder
from category_encoders import OneHotEncoder

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.preprocessing import PowerTransformer

In [None]:
print(pd.read_csv('../content/vista_repdetail_tec.csv', low_memory=False).info())
# Como se puede observar, el archivo .CSV no contiene el nombre de las columnas a utilizar.
# Debido a esto, utiliza el primer registro como nombre de las columnas.
# Por tanto, se debera asignar manualmente el nombre de las columnas según el diccionario de datos 
# proporcionado por el cliente.

In [None]:
# Nombres de las columnas según el Diccionario de Datos proporcionado
columns = [
    "Column", "Taller", "OrderID", "kMS", "OpenedDate", "ClosedDate", "Status",
    "lagdias", "laghoras", "ClosedDay", "ClosedMonth", "ClosedYear", "OpenedDay",
    "OpenedMonth", "OpenedYear", "CreatedBy", "ClosedBy", "RepReason",
    "OrderType", "Supplier", "COMPCDKEY", "COMPCODE", "DESCRIP", "QTYRCVD",
    "QTYREQD", "CHGAMT", "TAXAMT", "SUBTOTAL", "TOTAL", "UnitID", "UnitType",
    "UnitYear", "EC", "Flota", "ReasonType", "COMPLAINT", "Jobcode", "TipoLinea",
    "NumParte", "FechaPromesa", "Estimate", "CompleteDay", "CompleteMonth",
    "CompleteYear", "CompleteDate", "MECHANIC", "CITA"
]

# Cargar el archivo .CSV con los nombres de las columnas asignados a un DataFrame 'data'
data = pd.read_csv('../content/vista_repdetail_tec.csv', names=columns, low_memory=False)
# Mostrar la informacion del DataFrame creado
data.info()

In [None]:
# Visualizacion de una muestra de los datos en el DataFrame
data.sample(3)

## Documentación de los esquemas de datos

* ¿Cuál es nuestra fuente de datos?

Actualmente, la información es recabada por nuestro SocioFormador TDR. Tenemos acceso a un escritorio remoto que está a su vez conectado con un servidor de Microsoft SQL Server.

A partir de dicho servidor, llamamos a una de las vistas a las que nos dieron acceso, para recabar toda la información sobre las reparaciones de su flota.


* ¿Cómo obtenemos la información?

A traves de una Query de SQL a la que nos autorizaron, que seria la siguiente:


```
SELECT * FROM [TMWSuite].[dbo].[vista_repdetail_tec]
```




## Diccionario de datos

| Column        | Descripción                                                                                       |
| ------------- | ------------------------------------------------------------------------------------------------- |
| OrderID       | ID de la orden de reparación                                                                      |
| Taller        | Acrónimo del taller donde se realizó la reparación                                                |
| kMS         | Kilometros viajados por la unidad                                                                     |
| OpenedDate    | Fecha de apertura de la orden de reparación                                                       |
| ClosedDate    | Fecha de cierre de la orden de reparación                                                         |
| Status        | Estatus de la orden de reparación                                                                 |
| lagdias       | Días entre cierre y apertura de la orden de reparación                                            |
| laghoras      | Horas entre cierre y apertura de la orden de reparación                                           |
| ClosedDay     | Día del mes en que se cerró la orden de reparación                                                |
| ClosedMonth   | Mes que se cerró la orden de reparación                                                           |
| ClosedYear    | Año en que se cerró la orden de reparación                                                        |
| OpenedDay     | Día del mes en que se abrió la orden de reparación                                                |
| OpenedMonth   | Mes que se abrió la orden de reparación                                                           |
| OpenedYear    | Año en que se abrió la orden de reparación                                                        |
| CreatedBy     | Usuario que creó la orden de reparación                                                           |
| ClosedBy      | Usuario que cerro la orden de reparación                                                          |
| RepReason     | Razón de reparación                                                                               |
| OrderType     | Tipo de orden. Standar es en uno de nuestros talleres propios. Vendor es con un proveedor externo |
| Supplier      | Proveedor que realizó la reparación                                                               |
| COMPCDKEY     | Codigo de componente (No aporta info importante)                                                  |
| COMPCODE      | Codigo utilizado para identificar el tipo de reparación                                           |
| DESCRIP       | Descripción de la reparación                                                                      |
| QTYRCVD       | Cantidad de piezas o trabajo recibidas                                                            |
| QTYREQD       | Cantidad de piezas o trabajo requeridas                                                           |
| CHGAMT        | Costo unitario                                                                                    |
| TAXAMT        | IVA                                                                                               |
| SUBTOTAL      | Subtotal de la reparación (No incluye IVA)                                                        |
| TOTAL         | Total de la reparación (Incluye IVA)                                                              |
| UnitID        | Numero de unidad                                                                                  |
| UnitType      | Tipo de unidad (Tracto, Caja Seca, Dolly, etc.)                                                   |
| UnitYear      | Año del modelo de la unidad                                                                       |
| EC            | Equipo administrativo que se encarga de la operación de un conjunto de proyectos                  |
| Flota         | Nombre del proyecto en que trabaja el tracto. (Cliente)                                           |
| ReasonType    | Razón (No aporta info importante)                                                                 |
| COMPLAINT     | Queja reportada                                                                                   |
| Jobcode       | Numero para identificar el tipo de reparación                                                     |
| TipoLinea     | Describe el tipo de línea en la orden de reparación (Piezas, mano de obra, servicios, etc.)       |
| NumParte      | Numero de parte descarga en la línea de reparación                                                |
| FechaPromesa  | Fecha de promesa para terminar las reparaciones de la unidad                                      |
| Estimate      | Monto estimado (No lo utilizamos)                                                                 |
| CompleteDay   | Día del mes en que se completó la orden                                                           |
| CompleteMonth | Mes que se completó la orden de reparación                                                        |
| CompleteYear  | Año en que se completó la orden de reparación                                                     |
| CompleteDate  | Fecha en que se completó la orden de reparación                                                   |
| MECHANIC      | Mecánico interno que realizó la reparación                                                        |
| CITA          | Indica si la unidad tenía una cita agenda previamente                                             |

## Análisis de la estructura de los datos

* ¿Que tipo de datos tenemos? **Tenemos 13 de tipo float, 4 int, y 30 object.**
* ¿Requerimos modificar el tipo de datos de alguna columna? **Sí, para ser precisos, debemos convertir las siguientes columnas:**
  * **A int64**:
    * lagdias: Son cantidad de dias, no pueden venir con decimales
    * laghoras: Son cantidad de horas, no pueden venir con decimales
    * ClosedDay: Es el numero del dia en que fue cerrada (puede ser de 1 - 31)
    * QTYRCVD: Es una cantidad de piezas, no puede venir con decimales
    * QTYREQD: Es una cantidad de piezas, no puede venir con decimales
    * CompleteDay: Es el numero del dia en que fue cerrada (puede ser de 1 - 31)
    * CompleteYear: Es un año (no puede tener punto decimal o ser un string)
  
  * **A datetime64**
    * OpenedDate: Actualmente es un object, debe ser fecha
    * ClosedDate: Actualmente es un object, debe ser fecha
    * FechaPromesa: Actualmente es un object, debe ser fecha
    * CompleteDate: Actualmente es un object, debe ser fecha

* ¿Existen nulos? **Sí, actualmente hay 689,643 registros faltantes en toda la informacion que tenemos**

In [None]:
# Conteo de valores nulos en el DataFrame
data.isnull().sum()

In [None]:
print(data.isnull().sum().sum()) # <- Cantidad de nulos

## Perfiles involucrados

*   Equipo de TDR que nos puede ayudar con los datos (Identificar por nombre y cargo)


### Ing. Emmanuel Vargas Pérez

**Jefe de Administración de Equipo**

Nos proporcionará información sobre el proyecto que desarrollaremos (Sayer), incluyendo configuraciones de las flotas de tractocamiones y las fallas más comunes que suelen presentar estos vehículos.






### Ing. Mauricio Romo Ávila

**Subdirector de Mantenimiento**

Nos brindará información sobre el mantenimiento de los tractocamiones, incluyendo las fallas comunes, los costos asociados a estas fallas, las ubicaciones donde ocurren con mayor frecuencia, el número de talleres disponibles (tanto propios como generales), y responderá dudas sobre sus mantenimientos correctivos.


### Ing. Brandon Velazco

**Jefe de Taller**

Aportará información relevante sobre los tractocamiones, incluyendo detalles sobre las partes y componentes específicos que suelen fallar, en qué consisten estas fallas, así como la duración y el costo de las mismas.

*   Los profesores nos brindarán las herramientas y conocimientos
necesarios para lograr las metas y objetivos.

## Limpieza de Indices y Columnas

* ¿Qué indices vamos a utilizar?
 **La mejor opcion seria dejar un valor numérico discreto como índice, con el fin de que no tenga valores repetidos**

* ¿Qué columnas requieren un cambio de Tipo de Dato?
  * **A int64**:
      * lagdias: Son cantidad de días (enteros), no pueden venir con decimales
      * laghoras: Son cantidad de horas (enteros), no pueden venir con decimales
      * ClosedDay: Es el número del día en que fue cerrada (puede ser de 1 - 31)
      * QTYRCVD: Es una cantidad de piezas (enteras), no puede venir con decimales
      * QTYREQD: Es una cantidad de piezas (enteras), no puede venir con decimales
      * CompleteDay: Es el número del día en que fue cerrada (puede ser de 1 - 31)
      * CompleteYear: Es un año (no puede tener punto decimal o ser un string)

  * **A float64**:
    * Estimate: Se encuentra como object actualmente, debe ser un precio en decimal
  
  * **A datetime64**
    * OpenedDate: Actualmente es un object, debe ser fecha
    * ClosedDate: Actualmente es un object, debe ser fecha
    * FechaPromesa: Actualmente es un object, debe ser fecha
    * CompleteDate: Actualmente es un object, debe ser fecha


In [None]:
# Convertir las columnas requeridas a 'DateTime'
data['OpenedDate'] = pd.to_datetime(data['OpenedDate'])
data['ClosedDate'] = pd.to_datetime(data['ClosedDate'])
data['FechaPromesa'] = pd.to_datetime(data['FechaPromesa'])
data['CompleteDate'] = pd.to_datetime(data['CompleteDate'])

In [None]:
# Redondear los decimales de las columnas requeridas a 0, para posteriormente convertirlas a 'Int'
data['lagdias'] = data['lagdias'].round(0)
data['laghoras'] = data['laghoras'].round(0)
data['ClosedDay'] = data['ClosedDay'].round(0)
data['ClosedYear'] = data['ClosedYear'].round(0)
data['QTYRCVD'] = data['QTYRCVD'].round(0)
data['QTYREQD'] = data['QTYREQD'].round(0)
data['CompleteDay'] = data['CompleteDay'].round(0)
data['CompleteYear'] = data['CompleteYear'].round(0)

In [None]:
# Llenar los valores nulos de las columnas requeridas con 0, para posteriormente convertirlas a 'Int'
data['lagdias'] = data['lagdias'].fillna(0)
data['laghoras'] = data['laghoras'].fillna(0)
data['ClosedDay'] = data['ClosedDay'].fillna(0)
data['ClosedYear'] = data['ClosedYear'].fillna(0)
data['QTYRCVD'] = data['QTYRCVD'].fillna(0)
data['QTYREQD'] = data['QTYREQD'].fillna(0)
data['CompleteDay'] = data['CompleteDay'].fillna(0)
data['CompleteYear'] = data['CompleteYear'].fillna(0)

In [None]:
# Convertir las columnas requeridas a 'Int'
data['lagdias'] = data['lagdias'].astype(int)
data['laghoras'] = data['laghoras'].astype(int)
data['ClosedDay'] = data['ClosedDay'].astype(int)
data['ClosedYear'] = data['ClosedYear'].astype(int)
data['QTYRCVD'] = data['QTYRCVD'].astype(int)
data['QTYREQD'] = data['QTYREQD'].astype(int)
data['CompleteDay'] = data['CompleteDay'].astype(int)
data['CompleteYear'] = data['CompleteYear'].astype(int)

In [None]:
# Convertir columnas requeridas a 'Float'
# data['Estimate'] = data['Estimate'].astype(float)
# No se puede, porque la informacion en la columna 'Estimate' no es realmente un estimado

In [None]:
# Volver a revisar el tipo de dato de las columnas
data.info()

## Análisis de los datos (Descriptiores Estadisticos)

In [None]:
# Seleccionar sólo las variables relevantes para las estadisticas
data_descriptive = data[['lagdias', 'laghoras','TOTAL','UnitYear',
                      'RepReason', 'UnitType', 'TipoLinea', 'CITA', 'COMPLAINT']]

data_descriptive.sample(10)

**Estadística descriptiva de las variables numéricas**

In [None]:
# Estadística descriptiva de las variables numéricas
data_descriptive.describe()

| Variable numérica | Descripción | Rango | Desviación estándar |
|-----------|-----------|-----------|-----------|
| lagdias    | Días entre cierre y apertura de la orden de reparación   | 655    | Datos no tan dispersos    |
| laghoras    | Horas entre cierre y apertura de la orden de reparación    | 15,720    | Datos muy dispersos    |
| TOTAL    | Total de la reparación (Incluye IVA)   | 1,086,544   | Datos demasiado dispersos   |
| UnitYear    | Año del modelo de la unidad   | 116   | Datos no dispersos   |




*   **lagdias**: Los días de apertura y cierre de una reparación están ligeramente dispersos
*   **laghoras**: Las horas de apertura y cierre de una reparación presentan un gran rango de diferencia entre el valor máximo y mínimo, además de que están muy dispersas.
*   **TOTAL**: El costo total de las reparaciones tienen el rango más amplio, y con una alta desviación estándar.
*   **UnitYear**: Al tratarse de los años del modelo de cada unidad, no se presenta tanta dispersión.





In [None]:
msno.matrix(data_descriptive[['lagdias', 'laghoras', 'TOTAL', 'UnitYear']])
#No hay notoria presencia de valores null

In [None]:
data_descriptive.boxplot(figsize = (16, 8))
#El costo total de una reparación presenta la mayor cantidad de outliers, valores extremos
#Es importante consultar si estos valores son correctos, o pudiera tratarse de un error, de lo contrario se deberían eliminarse o imputarse

#El resto de variables no presentan tantos valores extremos

In [None]:
#Histograma para analizar la variable más dispersa, TOTAL

data_descriptive.hist(['TOTAL'], figsize = (16,8))

**Estadística descripctiva de variables categóricas**

In [None]:
# Estadística descripctiva de variables categóricas
data_descriptive.describe(include=object)

In [None]:
# Valores más repetidos en las variables cualitativas
data_categorical = data_descriptive.select_dtypes(include=object)
for column in data_categorical.columns:
  print(data_categorical[column].value_counts().head(5))
  print()
# Borrar las variables temporales de la memoria
del column

Identificar si hay columnas comunes en los dataframes empleados que permitan “enlazar” los registros en las siguientes fases.

**Debido a que solo utilizamos un dataframe para esta parte inicial del proyecto, no contamos con columnas por las que se pueda enlazar a otros dataframes. A futuro sería posible que tengamos más de uno que sí valdría la pena enlazar a traves de llaves o columnas en común.**

# **Selección y limpieza de datos**

## Eliminar las columnas no relevantes

Columna|Justificacion
------|--------------
Column| No sabemos que es
Taller| Viene implicito en el OrderID
ClosedDate| Tenemos una metrica mas precisa (laghoras)
ClosedDay| ""
ClosedMonth| ""
ClosedYear| ""
OpenedDay| Tenemos una metrica mas general (OpenedDate)
OpenedMonth| ""
OpenedYear| ""
CreatedBy| No afecta realmente quien inicio la orden de reparacion
ClosedBy| No afecta realmente quien cerro la orden de reparacion
OrderType| Solo existen 2 tipos 'Standard' & 'Vendor'. Asumimos que no tiene efecto en la reparacion
Supplier| No afecta realmente de donde se obtuvo la pieza de reparacion
**COMPCDKEY**| **No sabemos si tiene utilidad o no**
**COMPCODE**| **No sabemos si tiene utilidad o no**
DESCRIP| Tiene informacion demasiado especifica para cada caso, no nos seria util
QTYRCVD| No afecta realmente si se daño 1 o mas piezas, si no, que fallaron
QTYREQD| Similar al anterior.
CHGAMT| Lo importante es la metrica del costo por reparacion (TOTAL)
TAXAMT| ""
SUBTOTAL| ""
EC| No afecta realmente el equipo administrativo del proyecto
ReasonType| Segun el diccionario de datos, no aporta informacion relevante
FechaPromesa| No genera impacto en la reparacion
Estimate| " "
CompleteDay| Tenemos una metrica mas precisa (laghoras)
CompleteMonth| ""
CompleteYear| ""
CompleteDate| ""
MECHANIC| Asumimos que no genera impacto en la reparacion quien la hizo

In [None]:
# Seleccionar sólo las columnas relevantes para las estadisticas
data_filtered_cols = data.drop(['Column', 'Taller', 'ClosedDate', 'Status',
                   'ClosedDay', 'ClosedMonth', 'ClosedYear', 'OpenedDay', 'OpenedMonth', 'OpenedYear',
                   'CreatedBy', 'ClosedBy', 'OrderType', 'Supplier', 'COMPCDKEY', 'COMPCODE',
                   'DESCRIP', 'QTYRCVD', 'QTYREQD', 'CHGAMT', 'TAXAMT', 'SUBTOTAL', 'EC',
                   'ReasonType', 'FechaPromesa', 'Estimate', 'CompleteDay',
                   'CompleteMonth', 'CompleteYear', 'CompleteDate', 'MECHANIC'], axis=1)

# Visualizacion de una muestra de los datos en el DataFrame
data_filtered_cols.sample(10)

## Limpieza de las columnas (Trim)

Notamos que algunas de las columnas extraídas desde el archivo .CSV tenían espacios en blanco. Dichos espacios deben ser removidos para evitar complicaciones más adelante en la agrupación y filtrado de información. Es por eso que procedemos a arreglar dichos errores en la captura de la información

In [None]:
# Visualizacion de la informacion del DataFrame
data_filtered_cols.info()

In [None]:
# Eliminacion de espacios en blanco al inicio y final de los valores de la columna 'RepReason'
data_filtered_cols['RepReason'] = data_filtered_cols['RepReason'].str.strip()
# Verificar que se haya hecho correctamente
data_filtered_cols['RepReason'].value_counts().index[0:5]

In [None]:
# Eliminacion de espacios en blanco al inicio y final de los valores de la columna 'UnitType'
data_filtered_cols['UnitType'] = data_filtered_cols['UnitType'].str.strip()
# Verificar que se haya hecho correctamente
data_filtered_cols['UnitType'].value_counts().index

In [None]:
# Eliminacion de espacios en blanco al inicio y final de los valores de la columna 'TipoLinea'
data_filtered_cols['Flota'] = data_filtered_cols['Flota'].str.strip()
# Verificar que se haya hecho correctamente
data_filtered_cols['Flota'].value_counts().index[0:5]

In [None]:
# Eliminacion de espacios en blanco al inicio y final de los valores de la columna 'COMPLAINT'
data_filtered_cols['COMPLAINT'] = data_filtered_cols['COMPLAINT'].str.strip()
# Verificar que se haya hecho correctamente
data_filtered_cols['COMPLAINT'].value_counts().index[0:5]

In [None]:
# Eliminacion de espacios en blanco al inicio y final de los valores de la columna 'Jobcode'
data_filtered_cols['Jobcode'] = data_filtered_cols['Jobcode'].str.strip()
# Verificar que se haya hecho correctamente
data_filtered_cols['Jobcode'].value_counts().index[0:5]

In [None]:
# Eliminacion de espacios en blanco al inicio y final de los valores de la columna 'TipoLinea'
data_filtered_cols['TipoLinea'] = data_filtered_cols['TipoLinea'].str.strip()
# Verificar que se haya hecho correctamente
data_filtered_cols['TipoLinea'].value_counts().index

In [None]:
# Eliminacion de espacios en blanco al inicio y final de los valores de la columna 'NumParte'
data_filtered_cols['NumParte'] = data_filtered_cols['NumParte'].str.strip()
# Verificar que se haya hecho correctamente
data_filtered_cols['NumParte'].value_counts().index[0:5]

In [None]:
# Eliminacion de espacios en blanco al inicio y final de los valores de la columna 'CITA'
data_filtered_cols['CITA'] = data_filtered_cols['CITA'].str.strip()
# Verificar que se haya hecho correctamente
data_filtered_cols['CITA'].value_counts().index

Para la ultima columna 'CITA' se observa que existen registros con un campo vacio, por lo que se procede a sustituir este campo N/A por un texto de referencia (DESCONOCIDO). Además podemos corregir los nombres de algunos tipos de cita: 

* 'CITA A TIEMP' -> 'CITA A TIEMPO'
* 'EXPRES' -> 'EXPRESS'
* 'SCHEDULED' -> 'CON CITA'

In [None]:
# Sustituir valores de 'CITA' con un string vacio por 'Desconocido'
data_filtered_cols['CITA'] = data_filtered_cols['CITA'].replace('', 'DESCONOCIDO')

# Sustituir valores de 'CITA A TIEMP' por 'CITA A TIEMPO'
data_filtered_cols['CITA'] = data_filtered_cols['CITA'].replace('CITA A TIEMP', 'CITA A TIEMPO')

# Sustituir valores de 'EXPRES' por 'EXPRESS'
data_filtered_cols['CITA'] = data_filtered_cols['CITA'].replace('EXPRES', 'EXPRESS')

# Sustituir valores de 'SCHEDULED' por 'CON CITA'
data_filtered_cols['CITA'] = data_filtered_cols['CITA'].replace('SCHEDULED', 'CON CITA')

# Verificar que se haya hecho correctamente
data_filtered_cols['CITA'].value_counts().index

## Restablecer los índices con identificadores adecuados.

El índice del dataframe ya está establecido, considerando evitar los valores duplicados.

## Seleccionar o filtrar los registros u observaciones de interés
Con la finalidad de operar dataframes de menor complejidad.

Dado el proyecto asignado al equipo, nos centraremos en la informacion sobre todas las reparaciones de la flota 'Sayer', por lo que deberemos filtrar dicha informacion.

In [None]:
# Extraemos la informacion del proyecto Sayer Full
data_sayer = data_filtered_cols[data_filtered_cols['Flota'] == 'Sayer Full'][:]
# Borrar la columna 'Flota', pues ya no es necesaria
data_sayer = data_sayer.drop('Flota', axis=1)
data_sayer.info()

## Identificar valores faltantes y eliminarlos

In [None]:
# Visualización de datos nulos en el DataFrame
data_sayer.isnull().sum()

In [None]:
# Se identifican valores nulos en las columnas 'kMS', 'TipoLinea', 'CITA' y 'NumParte'
data_sayer[['kMS', 'TipoLinea', 'CITA', 'NumParte']].isnull().sum()

In [None]:
# Visualizacion de datos nulos en el DataFrame
data_sayer[data_sayer.isnull().any(axis=1)]

In [None]:
# Sustituir valores nulos de la columna 'CITA' por 'DESCONOCIDO'
data_sayer['CITA'] = data_sayer['CITA'].fillna('DESCONOCIDO')
data_sayer['CITA'].isnull().sum()

In [None]:
# Sustituir valores nulos de la columna 'TipoLinea' por 'DESCONOCIDO'
data_sayer['TipoLinea'] = data_sayer['TipoLinea'].fillna('DESCONOCIDO')
data_sayer['TipoLinea'].isnull().sum()

In [None]:
# Sustituir valores nulos de la columna 'NumParte' por 'DESCONOCIDO'
data_sayer['NumParte'] = data_sayer['NumParte'].fillna('DESCONOCIDO')
data_sayer['NumParte'].isnull().sum()

In [None]:
# Verificar que se hayan sustituido correctamente los valores nulos
data_sayer.isnull().sum()

## Detectar valores atípicos para su posterior transformación.


In [None]:
data_sayer.boxplot(vert=False)
#Observamos que en la columna de TOTAL es la que aparentemente hay mas datos
#atipicos, por lo que vamos a anilizarla a detalle


In [None]:
# Información estadística del DataFrame
data_sayer.describe()

In [None]:
# Análisis de la columna 'TOTAL'
data_sayer[['TOTAL']].boxplot(vert=False)

In [None]:
# Visualizacion de datos atipicos en la columna 'TOTAL'
data_sayer[data_sayer['TOTAL'] > 30000]

In [None]:
# Máscaras para identificar valores atipicos en la columna 'TOTAL'

# Consideramos que no es congruente que la columna 'TOTAL' tenga valores negativos
sayer_total_atipicosBajos = data_sayer['TOTAL'] <= 0

# Consideramos que es posible que una reparacion sea bastante costosa. Es por ello que 
# consideramos mantener los gastos elevados, exceptuando aquellos que están muy alejados 
# que podemos calcular en gastos superiores a $30,000
sayer_total_atipicosAltos = data_sayer['TOTAL'] >= 30000

# Concatenar las mascaras para obtener los valores atipicos
valores_atipicos = sayer_total_atipicosBajos | sayer_total_atipicosAltos

# Conteo de valores atipicos
valores_atipicos.sum()

In [None]:
# Creación de un nuevo DataFrame sin los valores atipicos
data_sayer_clean = data_sayer[~valores_atipicos]

In [None]:
# Análisis de la columna 'TOTAL' sin valores atipicos
data_sayer_clean[['TOTAL']].boxplot(vert=False)

In [None]:
# Análisis de la columna 'laghoras'
data_sayer_clean[['laghoras']].boxplot(vert=False)

In [None]:
# Visualizacion de datos atipicos en la columna 'laghoras'
data_sayer_clean[data_sayer_clean['laghoras'] < 0]

In [None]:
# Máscaras para identificar valores atipicos en la columna 'laghoras'

# Consideramos que no es congruente que la columna 'laghoras' tenga valores negativos o en 0
sayer_laghoras_atipicosBajos = data_sayer_clean['laghoras'] <= 0

# Consideramos que es posible que una reparacion sea bastante tardada. Es por ello que
# consideramos mantener los tiempos elevados, exceptuando aquellos que están muy alejados
# que podemos calcular en tiempos superiores a 1500 horas (62.5 dias)
sayer_laghoras_atipicosAltos = data_sayer_clean['laghoras'] >= 1500

# Concatenar las mascaras para obtener los valores atipicos
valores_atipicos = sayer_laghoras_atipicosBajos | sayer_laghoras_atipicosAltos

# Conteo de valores atipicos
valores_atipicos.sum()

In [None]:
# Actualizacion del DataFrame sin los valores atipicos
data_sayer_clean = data_sayer_clean[~valores_atipicos]

In [None]:
# Análisis de la columna 'laghoras' sin valores atipicos
data_sayer_clean[['laghoras']].boxplot(vert=False)

In [None]:
# Análisis de la columna 'lagdias'. Como podemos observar, al imputar la columna 'laghoras'
# también se imputa la columna 'lagdias' ya que ambas eran un cálculo de la diferencia entre las fechas
data_sayer_clean[['lagdias']].boxplot(vert=False)

In [None]:
# Visualizacion de datos atipicos en la columna 'lagdias'
data_sayer_clean[['kMS']].boxplot(vert=False)

In [None]:
# Recordemos que la columna 'kMS' es la que contiene valores nulos que todavia no hemos tratado
# Aqui procedemos a analizar los valores atipicos en la columna 'kMS' y posteriormente tratar los valores
# por medio de una imputacion de la mediana
sayer_kMS_atipicosBajos = data_sayer_clean['kMS'].isna()

# Concatenar las mascaras para obtener los valores atipicos
valores_atipicos = sayer_kMS_atipicosBajos

# Conteo de valores atipicos
valores_atipicos.sum()

In [None]:
# Actualizacion del DataFrame sin los valores atipicos
data_sayer_clean = data_sayer_clean.fillna(data_sayer_clean['kMS'].median())
data_sayer_clean.info()

In [None]:
# Análisis del DataFrame original de 'data_sayer' sin valores atipicos
data_sayer = data_sayer_clean

In [None]:
# Eliminacion de las variables temporales utilizadas para los valores atipicos
del sayer_total_atipicosBajos, sayer_total_atipicosAltos, sayer_laghoras_atipicosBajos 
del sayer_laghoras_atipicosAltos, sayer_kMS_atipicosBajos, valores_atipicos, data_sayer_clean

## Eliminar registros duplicados.

In [None]:
# Cantidad de elementos en el df
data_sayer.index.size

In [None]:
# Cantidad de elementos en el df si se eliminan las filas con informacion identica
data_sayer.drop_duplicates().index.size

Haciendo una resta simple, podemos calcular que actualmente existen $6378-6061 = 317$ duplicados. Esto añade un gran sesgo al análisis posterior, por lo que se procede a eliminarlos.

In [None]:
# Eliminacion de filas con informacion identica
data_sayer.drop_duplicates(inplace=True)

In [None]:
# Informacion del df despues de eliminar filas con informacion identica
data_sayer.info()

# **Construcción y transformación de datos**

## Agregación y agrupamiento.
 Construir nuevas características o variables con las tecnicas descritas

Primero, vamos a agrupar los valores de la columna 'COMPLAINT' para separar los siguientes tipos de
mantenimiento:
* PREVENTIVO
* CORRECTIVO
* DESCONOCIDO

In [None]:
#Analizar los tipos de reparaciones que se realizan a los tractos más comunes
data_sayer['COMPLAINT'].value_counts().index

In [None]:
# Añadir una nueva columna para identificar claramente los tipos de 'COMPLAINT'
# El valor por defecto de la columna sera 'CORRECTIVO' debido a que es el tipo de reparacion mas comun
data_sayer['ComplaintType'] = 'CORRECTIVO'

# Establecer en 'COMPLAINT' = 'PREVENTIVO' para los casos especficos que se pueden determinar
ComplaintTypePreventive = ['PM', 'PREVENT VENC', 'GASTADO', 'DESGASTADO', 'SUCIO', 'BAJA PRESION', 'PRESIÓN BAJA', 'GOLPETEA']
data_sayer.loc[data_sayer['COMPLAINT'].isin(ComplaintTypePreventive), 'ComplaintType'] = 'PREVENTIVO'

# Excepto para los casos que no se pueden determinar por ser demasiado ambiguos.
# Estos se clasificarán como 'DESCONOCIDO'
ComplaintTypeUnknown = ['DAÑO OP', 'SE NEUTRALIZ', 'DESGASTE IRR', 'JALA DERECHA', 'SIN DIESEL', 'ACORTADO', 'OTROS', 'OTHER']
data_sayer.loc[data_sayer['COMPLAINT'].isin(ComplaintTypeUnknown), 'ComplaintType'] = 'DESCONOCIDO'

In [None]:
# Muestreamos para verificar que el agrupamiento se haya hecho correctamente
data_sayer['ComplaintType'].value_counts()

In [None]:
#¿Qué porcentaje representan los mantenimiento preventivos segun el ComplaintType respecto a todas las operaciones de mantenimiento?
percent = (data_sayer.groupby('ComplaintType')['ComplaintType'].count() / data_sayer.shape[0] * 100).round(2)
# Ordenar por porcentaje
percent = percent.sort_values(ascending=False)

# Imprimir los porcentajes de mantenimientos por tipo
for i in range(len(percent)):
    print(f" (Complaint Type) Los mantenimientos de tipo '{percent.index[i]}' representan el {percent.iloc[i]}% de todas las operaciones de mantenimiento.")


Posteriormente, vamos a agrupar los valores de la columna 'RepReason' para identificar los tipos de
mantenimiento:
* PREVENTIVO
* CORRECTIVO
* DESCONOCIDO

In [None]:
#Analizar los tipos de reparaciones que se realizan a los tractos más comunes
data_sayer['RepReason'].value_counts().index

In [None]:
# Añadir una nueva columna para identificar claramente los tipos de 'COMPLAINT'
# El valor por defecto de la columna sera 'DESCONOCIDO' debido a que es el tipo de reparacion mas comun
# Lamentablemente, es muy ambigua la informacion en esta columna, por lo que tendremos que clasificarla como 'DESCONOCIDO'
data_sayer['RepReasonType'] = 'DESCONOCIDO'

# Establecer en 'COMPLAINT' = 'PREVENTIVO' para los casos especificos que se pueden determinar
RepReasonTypePreventive = ['PM', 'DESGASTE', 'LAVADO', 'FALTA PRESIÓ']
data_sayer.loc[data_sayer['RepReason'].isin(RepReasonTypePreventive), 'RepReasonType'] = 'PREVENTIVO'

# Establecer en 'COMPLAINT' = 'CORRECTIVO' para los casos especificos que se pueden determinar
RepReasonTypeCorrective = ['MC', 'PERFORADA', 'PONCHADURA', 'FUGA AIRE', 'FOCOS', 'FUGA ACEITE', 'CAMBIO DAÑO', 'ROBO', '7 VIAS DAÑAD', 'BATERÍA DAÑA', 'GOLPE', 'CORTO', 'FALLA GPS']
data_sayer.loc[data_sayer['RepReason'].isin(RepReasonTypeCorrective), 'RepReasonType'] = 'CORRECTIVO'

In [None]:
# Muestreamos para verificar que el agrupamiento se haya hecho correctamente
data_sayer['RepReasonType'].value_counts()

In [None]:
#¿Qué porcentaje representan los mantenimiento preventivos segun el ComplaintType respecto a todas las operaciones de mantenimiento?
percent = (data_sayer.groupby('RepReasonType')['RepReasonType'].count() / data_sayer.shape[0] * 100).round(2)
# Ordenar por porcentaje
percent = percent.sort_values(ascending=False)

# Imprimir los porcentajes de mantenimientos por tipo
for i in range(len(percent)):
    print(f" (RepReason Type) Los mantenimientos de tipo '{percent.index[i]}' representan el {percent.iloc[i]}% de todas las operaciones de mantenimiento.")

In [None]:
# Eliminacion de las variables temporales utilizadas para categorizar los tipos de reparaciones
del ComplaintTypePreventive, ComplaintTypeUnknown, percent
del RepReasonTypePreventive, RepReasonTypeCorrective

## 8. Mean Time Between Failures (MTBF)
The average time elapsed between consecutive failures.

In [None]:
data_sayer.info()

In [None]:
# Creacion de un DataFrame para el registro de reparaciones y fechas por cada unidad de la flota
# de Sayer Full

# Se agrupara la informacion por 'UnitID' y UnitType
# Se agrega la columna 'RepairCount' que obtiene la cantidad de reparaciones de una misma unidad
# Se agrega la columna 'RepairDates' que obtiene las fechas de las reparaciones de una misma unidad
sayer_maintenance_byUnit = data_sayer.groupby(['UnitID', 'UnitType']).agg(
    RepairCount=('OpenedDate', 'size'),
    RepairDates=('OpenedDate', lambda x: list(x + pd.to_timedelta(data_sayer.loc[x.index, 'laghoras'], unit='h')))
).reset_index()

# Muestreamos para verificar que el agrupamiento se haya hecho correctamente
sayer_maintenance_byUnit

In [None]:
# Asegurarse de que las fechas estén en formato datetime y manejar errores
sayer_maintenance_byUnit['RepairDates'] = sayer_maintenance_byUnit['RepairDates'].apply(lambda x: pd.to_datetime(x))

# Función para calcular el promedio de días entre reparaciones
def meanBtwnRepairs(dates):
    if len(dates) > 1:
        dates = sorted(dates)  # Ordenar las fechas
        # Calcular diferencias entre fechas consecutivas y regresar el promedio en días
        return pd.Series(dates).diff().mean().days
    else:
        return None  # Si solo hay una fecha
    
# Función para calcular el promedio de días entre reparaciones
def meanBtwnRepairsHours(dates):
    if len(dates) > 1:
        dates = sorted(dates)  # Ordenar las fechas
        # Calcular diferencias entre fechas consecutivas y regresar el promedio en horas
        return pd.Series(dates).diff().mean().total_seconds() / 3600
    else:
        return None  # Si solo hay una fecha

# Aplicar la función a cada tipo de "COMPLAINT" del dataframe
sayer_maintenance_byUnit['AvgDaysBetweenRepairs'] = sayer_maintenance_byUnit['RepairDates'].apply(meanBtwnRepairs)
# Aplicar la función a cada tipo de "COMPLAINT" del dataframe por hora
sayer_maintenance_byUnit['AvgHoursBetweenRepairs'] = sayer_maintenance_byUnit['RepairDates'].apply(meanBtwnRepairsHours)

# Muestreamos para verificar que el calculo se haya hecho correctamente
sayer_maintenance_byUnit[['UnitID', 'UnitType', 'RepairCount', 'AvgDaysBetweenRepairs', 'AvgHoursBetweenRepairs']]

## Discretización o binning
Reagrupar atributos de alta cardinalidad mediante los metodos descritos

In [None]:
#Elegimos el metodo de discretizacion qcut ya que no tenemos rangos bien definidos
#de manera que con este metodo dividimos las variables en intervalos iguales,
#a lo cual tomamos 3 criterios, Reparacion_rapida, Reparacion_Normal y
#Reparacion_lenta con la finalidad de hacer mas descriptiva la variable de horas
# y tener nocion si la reparacion tomo demasiado tiempo o fue muy lenta
#Decidimos eligir la variable de horas, porque al analizar esta variable, observamos
#que es mas exacta que la variable dias, ya que esta ultima son dias enteros.

data_sayer['EficienciaRep'], cut_bin = pd.qcut(x=data_sayer['laghoras'],
                                               q=3,
                                               labels=['RAPIDA','NORMAL','LENTA'],
                                               retbins=True)
cut_bin

In [None]:
data_sayer['EficienciaRep'].value_counts()
#Observamos que lo dividio casi exactamente en 3 partes iguales

In [None]:
#Similar al caso anterior, al no tener unos rangos bien definidos,
#nos decidimos por el metodo de qcut para dividirlo en 3 partes,Costo_bajo
# Costo_normal, Costo_elevado .

data_sayer['ClasificacionCosto'], cut_bin = pd.qcut(x=data_sayer['TOTAL'],
                                    q=3,
                                    labels=['BAJO','NORMAL','ELEVADO'],
                                    retbins=True)
cut_bin

In [None]:
# Verificar la cantidad de valores en cada categoria de 'ClasificacionCosto'
data_sayer['ClasificacionCosto'].value_counts()

In [None]:
# Eliminacion de las variables temporales utilizadas para la clasificacion de las variables
del cut_bin

In [None]:
# Visualizacion de la informacion del DataFrame
data_sayer.info()

## One-hot encoding
Para las variables **categóricas** que consideren necesarias.

In [None]:
data_sayer.select_dtypes(include=['object', 'category'])

In [None]:
# Crear un nuevo DataFrame con las columnas a utilizar para el encoding
sayer_encoding = data_sayer[['OrderID','UnitID','CITA', 'TipoLinea', 'UnitType']]

In [None]:
# codificación por conteo
sayer_encoding = CountEncoder(cols=['CITA']).fit(sayer_encoding).transform(sayer_encoding)

In [None]:
# codificación por OneHot
sayer_encoding = OneHotEncoder(cols=['TipoLinea']).fit(sayer_encoding).transform(sayer_encoding)

In [None]:
# codificación por OneHot
sayer_encoding = OneHotEncoder(cols=['UnitType']).fit(sayer_encoding).transform(sayer_encoding)

In [None]:
# Renombrar las columnas para una mejor comprensión
sayer_encoding.rename(columns={'UnitType_1': 'TRACTOR', 'UnitType_2': 'TRAILER', 'UnitType_3': 'DOLLY', 'TipoLinea_1': 'PART', 'TipoLinea_2': 'SERVICES', 'TipoLinea_3': 'LABOR'}, inplace = True)
# Resetear el índice
sayer_encoding.reset_index(drop=True, inplace=True)
# Visualizar el DataFrame
sayer_encoding

Para la parte de 'One-Hot Encoding' se decidio codificar unicamente 3 variables. 'CITA', 'TipoLinea', 'UnitType'.

Para las variables 'TipoLinea' y 'UnitType' se decidio codificar con OneHot ya que de esta manera será mucho mas facil encontrar y leer que tipo de unidad de esta manejando y que tipo de linea.

La variable 'CITA' se codificó con Count ya que de esta manera se podrá conocer la cantidad de registros por cada situación de las citas y así tener un mayor control.

## Feature transformation
Para las variables con valores atípicos identificados.

In [None]:
# Verificamos que columnas vamos a trabajar
# (Deben ser numericas, para poder transformarlas)
data_sayer.info()

In [None]:
# Analizamos cual es el valor minimo para cada una, es muy importante
# para obtener el metodo para transformar
data_sayer.describe()

In [None]:
pd.plotting.scatter_matrix(data_sayer[['lagdias', 'laghoras', 'TOTAL', 'UnitYear']],
                           figsize=(16,8))
plt.show()

# Aqui debemos identificar aquellas que no tienen una distribucion normal, y que tenga sentidos aplicar
# una transformacion. En este caso, podriamos ocupar las variables 'dias, horas y TOTAL'

In [None]:
# Dada la naturaleza de nuestros datos, no seria posible aplicar una 'Transformada
# Logaritmica', porque contamos con valores entre 0 y 1.
# Ademas si intentamos utilizar un metodo como el de 'Box-Cox', nos daria un error
# en la ejecucion, pues este solo permite valores mayores a 1.
# Es por ello que nuestro unico metodo de transformacion plausible para utilizar
# seria el de Yeo-johnson, que acepta un rango de valores de negativos, positivos
# y 0.

scaler = PowerTransformer(method='yeo-johnson')

pow_trans = scaler.fit_transform(data_sayer[['lagdias', 'laghoras', 'TOTAL']])
# creamos un DataFrame para guardar los valores transformados. Sera igual al de data_sayer, sustituyendo las columnas a transformar
sayer_featureTransform = data_sayer.copy()
# Sustituir las columnas a transformar por las transformadas
sayer_featureTransform['lagdias'] = pow_trans[:, 0]
sayer_featureTransform['laghoras'] = pow_trans[:, 1]
sayer_featureTransform['total'] = pow_trans[:, 2]
# Cambiamos el nombre de dichas columnas para que se identifiquen como transformadas
sayer_featureTransform.rename(columns={'lagdias': 'pow_lagdias', 'laghoras': 'pow_laghoras', 'TOTAL': 'pow_total'}, inplace=True)

In [None]:
# Comparativa entre las distribuciones anteriores y posteriores a la transformacion
fig, ax = plt.subplots(1, 2)
ax[0].hist(data_sayer.lagdias)
ax[0].set_title('LAGDIAS')
ax[1].hist(np.log(sayer_featureTransform.pow_lagdias))
ax[1].set_title('Pow LAGDIAS')

In [None]:
# Comparativa entre las distribuciones anteriores y posteriores a la transformacion
fig, ax = plt.subplots(1, 2)
ax[0].hist(data_sayer.laghoras)
ax[0].set_title('LAGHORAS')
ax[1].hist(np.log(sayer_featureTransform.pow_laghoras))
ax[1].set_title('Pow LAGHORAS')

In [None]:
# Comparativa entre las distribuciones anteriores y posteriores a la transformacion
fig, ax = plt.subplots(1, 2)
ax[0].hist(data_sayer.TOTAL)
ax[0].set_title('TOTAL')
ax[1].hist(np.log(sayer_featureTransform.pow_total))
ax[1].set_title('Pow TOTAL')

In [None]:
# Finalmente hacemos una comparativa con la correlacion entre variables anterior, para afirmar 
# el incremento entre la relacion entre una y otra
fig, ax = plt.subplots(1, 2, figsize=(16,8))
sns.heatmap(data_sayer[['lagdias', 'laghoras', 'TOTAL']].corr(), annot=True, ax=ax[0]).set_title('Original data')
sns.heatmap(sayer_featureTransform[['pow_lagdias', 'pow_laghoras', 'pow_total']].corr(), annot=True, ax=ax[1]).set_title('Pow Transformed data')

In [None]:
# Eliminacion de las variables temporales utilizadas para la transformacion de las variables
del ax, fig, pow_trans, scaler

# RESULTADOS OBTENIDOS

En este entregable se logró encontrar el porcentaje significativo del número de rescates en carretera respecto al total.

Además, se clasificaron las reparaciones realizadas acorde a su periodo de tiempo, y los costos de las mismas según su rango.

Por último, se trabajaron los valores atípicos afirmando el incremento entre la variabilidad de los valores importantes para el proyecto.

# PARTE 2

## Antiguedad de la flota

In [None]:
# Promedio de edad por cada Unidad segun su UnitID
print(f'El promedio de edad de las unidades de tipo DOLLY es de: ', end='')
print(f"{2024 - data_sayer[data_sayer['UnitType'] == 'DOLLY'].groupby('UnitID')['UnitYear'].mean().mean()} años")
print(f'El promedio de edad de las unidades de tipo TRACTOR es de: ', end='')
print(f"{2024 - data_sayer[data_sayer['UnitType'] == 'TRACTOR'].groupby('UnitID')['UnitYear'].mean().mean()} años")
print(f'El promedio de edad de las unidades de tipo TRAILER es de: ', end='')
print(f"{2024 - data_sayer[data_sayer['UnitType'] == 'TRAILER'].groupby('UnitID')['UnitYear'].mean().mean():.2f} años")

## Datos por año

In [None]:
# Crear columna 'ClosedMonth' para identificar el mes de cierre de la reparacion}
# Se calcula mediante la sumna de OpenedDate y lagdias
data_sayer['ClosedMonth'] = (data_sayer['OpenedDate'] + pd.to_timedelta(data_sayer['lagdias'], unit='d')).dt.month

In [None]:
# Creacion de una columna 'MaintenanceYear' para identificar el año de mantenimiento
data_sayer['MaintenanceYear'] = data_sayer['OpenedDate'].dt.year
# Análisis de la columna 'MaintenanceYear' y los años de mantenimiento
data_sayer['MaintenanceYear'].value_counts()

In [None]:
# Creacion de un DataFrame para los mantenimientos del año 2022
data_sayer_2022 = data_sayer[data_sayer['MaintenanceYear'] == 2022]
data_sayer_2022.sample(5)

In [None]:
# Creacion de un DataFrame para los mantenimientos del año 2023
data_sayer_2023 = data_sayer[data_sayer['MaintenanceYear'] == 2023]
data_sayer_2023.sample(5)

In [None]:
# Creacion de un DataFrame para los mantenimientos del año 2024
data_sayer_2024 = data_sayer[data_sayer['MaintenanceYear'] == 2024]
data_sayer_2024.sample(5)

In [None]:
# Borrado de la columna 'MaintenanceYear' de los DataFrames creados, pues ya no es necesaria
data_sayer_2022 = data_sayer_2022.drop('MaintenanceYear', axis=1)
data_sayer_2023 = data_sayer_2023.drop('MaintenanceYear', axis=1)
data_sayer_2024 = data_sayer_2024.drop('MaintenanceYear', axis=1)

## Estadística hasta el momento

### Muestras

In [None]:
# Cantidad de elementos en la poblablacion (data)
print(f'Nuestra poblacion (toda la base de datos) es de \033[4m{data.index.size}\033[0m elementos')
# Cantida de elementos en la muestra (data_sayer)
print(f'Nuestra muestra (proyecto Sayer Full) es de \033[4m{data_sayer.index.size}\033[0m elementos')
# Cantidad de elementos en la muestra (data_sayer_2022)
print(f'Nuestra muestra (Sayer 2022) es de \033[4m{data_sayer_2022.index.size}\033[0m elementos')
# Cantidad de elementos en la muestra (data_sayer_2023)
print(f'Nuestra muestra (Sayer 2023) es de \033[4m{data_sayer_2023.index.size}\033[0m elementos')
# Cantidad de elementos en la muestra (data_sayer_2024)
print(f'Nuestra muestra (Sayer 2024) es de \033[4m{data_sayer_2024.index.size}\033[0m elementos')
# Tipos de unidades en la muestra (data_sayer). Agrupar por tipo de unidad y contar cuantas distintas hay segun su UnitID
print(f'\nEn  Sayer Full, se cuenta con:')
print(data_sayer.groupby("UnitType")["UnitID"].nunique())

### Reparaciones

In [None]:
# Cantidad de reparaciones por unidad de la flota de Sayer Full
print(f'\nEn Sayer Full, se tiene la siguiente \033[4m\033[1mfrecuencia de reparaciones:\033[0m')
sayer_maintenance_byUnit[['UnitID', 'UnitType','RepairCount', 'AvgDaysBetweenRepairs']]

In [None]:
# Cantidad de reparaciones segun el tipo de reparacion (ComplaintType)
print(f'\nEn Sayer Full, se tiene la siguiente \033[4m\033[1mdistribucion de reparaciones:\033[0m')
print(f"{data_sayer.groupby(['ComplaintType'])['OrderID'].count()}\n")
print(f"{data_sayer.groupby(['MaintenanceYear'])['OrderID'].count()}\n")
print(f"{data_sayer.groupby(['MaintenanceYear', 'ComplaintType'])['OrderID'].count()}\n")


In [None]:
# Tiempo promedio entre reparaciones por 'UnitType' en la flota de Sayer Full
print(f'\nEn Sayer Full, se tiene el siguiente \033[4m\033[1mpromedio de tiempo entre reparaciones:\033[0m')
sayer_maintenance_byUnit.groupby('UnitType')['AvgHoursBetweenRepairs'].mean()

In [None]:
# Tiempo promedio en reparacion segun el tipo de reparacion (ComplaintType)
print(f'\nEn Sayer Full, se tiene el siguiente \033[4m\033[1mpromedio de tiempo en reparacion:\033[0m')
data_sayer.groupby('ComplaintType')['laghoras'].mean()

In [None]:
# Graficar la cantidad de reparaciones por mes para los distintos años

# Cantidad de graficas a mostrar
figure, axis = plt.subplots(1, 3)
# Tamaño de las graficas
figure.set_size_inches(16, 6)
# Grafica 2022
sns.countplot(data=data_sayer_2022, ax=axis[0], x='ClosedMonth', color='dimgray')
axis[0].set_title('Cantidad de reparaciones por mes en 2022')
axis[0].set_xlabel('Mes')
axis[0].set_ylabel('Cantidad de reparaciones')
# Grafica 2023
sns.countplot(data=data_sayer_2023, ax=axis[1], x='ClosedMonth', color='dimgray')
axis[1].set_title('Cantidad de reparaciones por mes en 2023')
axis[1].set_xlabel('Mes')
axis[1].set_ylabel('Cantidad de reparaciones')
# Grafica 2024
sns.countplot(data=data_sayer_2024, ax=axis[2], x='ClosedMonth', color='dimgray')
axis[2].set_title('Cantidad de reparaciones por mes en 2024')
axis[2].set_xlabel('Mes')
axis[2].set_ylabel('Cantidad de reparaciones')

# Añadir el conteo de reparaciones por tipo (ComplaintType) en cada mes
sns.countplot(data=data_sayer_2022, ax=axis[0], x='ClosedMonth', hue='ComplaintType', hue_order=['CORRECTIVO', 'PREVENTIVO', 'DESCONOCIDO'], palette='Accent_r')
sns.countplot(data=data_sayer_2023, ax=axis[1], x='ClosedMonth', hue='ComplaintType', hue_order=['CORRECTIVO', 'PREVENTIVO', 'DESCONOCIDO'], palette='Accent_r')
sns.countplot(data=data_sayer_2024, ax=axis[2], x='ClosedMonth', hue='ComplaintType', hue_order=['CORRECTIVO', 'PREVENTIVO', 'DESCONOCIDO'], palette='Accent_r')

plt.show()

In [None]:
# Graficar la cantidad de reparaciones por mes para los distintos años

# Cantidad de graficas a mostrar
figure, axis = plt.subplots(1, 3)
# Tamaño de las graficas
figure.set_size_inches(16, 6)
# Grafica 2022
sns.countplot(data=data_sayer_2022, ax=axis[0], x='ClosedMonth', color='dimgray')
axis[0].set_title('Cantidad de reparaciones por mes en 2022')
axis[0].set_xlabel('Mes')
axis[0].set_ylabel('Cantidad de reparaciones')
# Grafica 2023
sns.countplot(data=data_sayer_2023, ax=axis[1], x='ClosedMonth', color='dimgray')
axis[1].set_title('Cantidad de reparaciones por mes en 2023')
axis[1].set_xlabel('Mes')
axis[1].set_ylabel('Cantidad de reparaciones')
# Grafica 2024
sns.countplot(data=data_sayer_2024, ax=axis[2], x='ClosedMonth', color='dimgray')
axis[2].set_title('Cantidad de reparaciones por mes en 2024')
axis[2].set_xlabel('Mes')
axis[2].set_ylabel('Cantidad de reparaciones')

# Añadir el conteo de reparaciones por tipo (RepReason) en cada mes
sns.countplot(data=data_sayer_2022, ax=axis[0], x='ClosedMonth', hue='RepReasonType', hue_order=['CORRECTIVO', 'PREVENTIVO', 'DESCONOCIDO'], palette='Accent_r')
sns.countplot(data=data_sayer_2023, ax=axis[1], x='ClosedMonth', hue='RepReasonType', hue_order=['CORRECTIVO', 'PREVENTIVO', 'DESCONOCIDO'], palette='Accent_r')
sns.countplot(data=data_sayer_2024, ax=axis[2], x='ClosedMonth', hue='RepReasonType', hue_order=['CORRECTIVO', 'PREVENTIVO', 'DESCONOCIDO'], palette='Accent_r')

plt.show()

### Costos

In [None]:
# Calcular la suma del costo total de las reparaciones para cada unidad de la flota
print(f'Costo total de las reparaciones por unidad de la flota de Sayer Full:')
data_sayer.groupby(['UnitID', 'UnitType'])['TOTAL'].sum().reset_index()

In [None]:
# Costo promedio por tipo de unidad
print(f'Costo promedio de las reparaciones por tipo de unidad:')
data_sayer.groupby('UnitType')['TOTAL'].mean().reset_index()

In [None]:
# Costo promedio por año de unidad
print(f'Costo promedio de las reparaciones por tipo de unidad:')
data_sayer.groupby(['UnitYear', 'UnitType'])['TOTAL'].mean().reset_index()

In [None]:
# Costo promedio por tipo de reparacion (ComplaintType)
print(f'Costo promedio de las reparaciones por tipo de reparacion:')
data_sayer.groupby('ComplaintType')['TOTAL'].mean().reset_index()

In [None]:
# Agrupar por 'ComplaintType' y calcular el costo promedio de las reparaciones
data_sayer.groupby('ComplaintType')['TOTAL'].mean()

# Parte 3 (Hipótesis Estadística)

In [None]:
# Reordenar la columnas del dataframe 'data_sayer'
# Debe tener el siguiente orden: [UnitID, UnitType, UnitYear, kMS, ComplaintType, OpenedDate, lagdias, laghoras, MaintenanceYear, ClosedMonth, TOTAL, COMPLAINT, Jobcode, NumParte, EficienciaRep, ClasificacionCosto]
sayer_analysis = data_sayer[['UnitID', 'UnitType', 'UnitYear', 'kMS', 'ComplaintType', 'OpenedDate', 'lagdias', 'laghoras', 'MaintenanceYear', 'ClosedMonth', 'TOTAL', 'COMPLAINT', 'Jobcode', 'NumParte', 'EficienciaRep', 'ClasificacionCosto']]
# Reset index to avoid problems
sayer_analysis.reset_index(drop=True, inplace=True)

# Conteo de las reparaciones por año, tipo de unidad y tipo de reparacion a traves del conteo de registros
sayer_analysis.groupby(['UnitYear', 'UnitType', 'ComplaintType'])['UnitID'].count()

# Guardar el agrupamiento en un nuevo DataFrame
sayer_analysis2 = sayer_analysis.groupby(['UnitYear', 'UnitType', 'ComplaintType'])['UnitID'].count().reset_index()

# Renombrar la columna 'UnitID' por 'RepairCount'
sayer_analysis2.rename(columns={'UnitID': 'RepairCount'}, inplace=True)

# Porcentaje de reparaciones correctivas sobre el total de reparaciones por año y tipo de unidad
sayer_analysis2['PercentOverTotal'] = sayer_analysis2['RepairCount'] / sayer_analysis2.groupby(['UnitYear', 'UnitType'])['RepairCount'].transform('sum')
sayer_analysis2

print(f'Porcentaje de reparaciones correctivas de Trailers en 2016:')
print(f'{sayer_analysis2.iloc[0, 4] * 100:.2f}%')

print(f'Porcentaje de reparaciones correctivas de Trailers en 2017:')
print(f'{sayer_analysis2.iloc[3, 4] * 100:.2f}%')

print(f'Porcentaje de reparaciones correctivas de Trailers en 2018:')
print(f'{sayer_analysis2.iloc[6, 4] * 100:.2f}%')

sayer_analysis2.groupby(['UnitYear'])['RepairCount'].sum()

# Convertir a HTML

In [None]:
# %%shell
# jupyter nbconvert --to html /content/E5_Construcción_y_transformación_de_datos.ipynb