**2. Funciones para la observación y limpieza.** El objetivo de crear funciones es la reutilización de código, haciéndolo más legible y más facil de mantener.<br>
**2.1 Función analisis.**  Esta es una función que llama a todas las funciones de observación del DataFrame de Pandas que nos pueden aportar 
información útil acerca del contenido, tipo de datos, dimensiones y estadísticas básicas de los datos numéricos.

In [1]:
def analisis(data):
    """
    Realiza un análisis inicial del DataFrame.
    
    Parameters:
    data (DataFrame): El DataFrame a analizar.
    
    Returns:
    None
    """
    print("Dimensiones del Dataframe:")
    mostrar_dimensiones(data)
    print("Primeras y últimas filas del DataFrame:")
    primeras_ultimas_filas(data)
    print("\nInformación del DataFrame:")
    imprimir_info(data)
    print("\nEstadísticas descriptivas:")
    # Crear y mostrar la tabla de estadísticas descriptivas
    estadisticas = crear_tabla_estadisticas(data)
    imprimir_tabla_estadisticas(estadisticas)

**2.2 Función imprimir_info.** Función que recibe como parámetro un DataFrame y muestra estadísticas descriptivas acerca de los datos <br>
que contiene éste.

In [2]:
def imprimir_info(data):
    """
    Imprime información del DataFrame.
    A través de data.info() podemos analizar que tipo de varibles hay en el data.
    Parameters:
    data (DataFrame): El DataFrame del que se va a mostrar información.
    
    Returns:
    None
    """
    display(data.info())

**2.3 Función primeras_ultimas_filas.** Función que recibe como parámetro un DataFrame y muestra sus primeras líneas y las últimas.
Esto en un análisis inicial puede ser práctico y aportar información básica que ayude al análisis.

In [3]:
def primeras_ultimas_filas(data):
    """
    Imprime las Primeras filas del DataFrame.
    
    Parameters:
    data (DataFrame): El DataFrame a mostrar.
    
    Returns:
    None
    """
    print("\n")
    print("Primeras filas")
    display(data.head())
    print("\n")
    print("Últimas filas")
    display(data.tail())
    print("\n")

**2.4 Función imprimir_tabla_estadisticas.** Función que recibe como parámetro un DataFrame y crea una tabla con algunas estadísticas descriptivas
de los valores numéricos del DataFrame (Media, Mediana, Desviación estandar... etc.)

In [4]:
def crear_tabla_estadisticas(data):
    """
    Crea una tabla con las estadísticas descriptivas del DataFrame.
    
    Parameters:
    data (DataFrame): El DataFrame a analizar.
    
    Returns:
    DataFrame: DataFrame con las estadísticas descriptivas.
    """
    # Obtener estadísticas descriptivas
    estadisticas = data.describe()
    
    # Renombrar las columnas para mayor claridad
    estadisticas.rename(index={
        'count': 'Número de Observaciones',
        'mean': 'Promedio',
        'std': 'Desviación Estándar',
        'min': 'Valor Mínimo',
        '25%': 'Primer Cuartil (25%)',
        '50%': 'Mediana (50%)',
        '75%': 'Tercer Cuartil (75%)',
        'max': 'Valor Máximo'
    }, inplace=True)
    
    return estadisticas


**2.5 Función imprimir_tabla_estadisticas.** Función que recibe como parámetro un DataFrame y crea una tabla con algunas estadísticas descriptivas
de los valores numéricos del DataFrame (Media, Mediana, Desviación estandar... etc.)

In [5]:
def imprimir_tabla_estadisticas(estadisticas):
    """
    Imprime la tabla de estadísticas descriptivas en formato de tabla.
    
    Parameters:
    estadisticas (DataFrame): DataFrame con las estadísticas descriptivas.
    
    Returns:
    None
    """
    print(tabulate(estadisticas, headers='keys', tablefmt='pretty',stralign='left'))

**2.6 Función mostrar_dimensiones.** Función que recibe como parámetro un DataFrame y muestra el número de columnas y el número de filas.

In [6]:
def mostrar_dimensiones(data):
    """
    Imprime las dimensiones DataFrame.
    
    Parameters:
    data (DataFrame): El DataFrame del que se van a mostrar las dimensiones.
    
    Returns:
    None
    """
    data_shape = data.shape
    # Crear una lista con la forma de los datos
    shape_list = [["Filas", data_shape[0]], ["Columnas", data_shape[1]]]
    # Usar tabulate para mostrar la información en formato de tabla
    print(tabulate(shape_list, headers=["Dimensión", "Número"], tablefmt="pretty"))

 # Mostrar los nombres de las columnas separados por comas
    columnas = ", ".join(data.columns)
    print("\nNombres de las columnas:")
    print(columnas)
    print("\n")

**2.7 Función valores_faltantes.** Función que recibe como parámetro un DataFrame y devuelve otro DataFrame al que se le han eliminado<br>
aquellas filas en las que en algún valor aparece "not_available" o vacío.

In [1]:
def valores_faltantes(data):
    """
    Esta función recibe un DataFrame de pandas y elimina todas las filas que 
    están vacías o cuyo contenido sea "not_available".
    
    Parámetros:
    data (pd.DataFrame): El DataFrame a limpiar.
    
    Retorna:
    pd.DataFrame: El DataFrame limpio.
    """
    # Reemplazar 'not_available' con NaN para poder eliminar las filas fácilmente
    data.replace("not_available", pd.NA, inplace=True)
    
    # Eliminar filas que contienen NaN en cualquier columna
    data_limpio = data.dropna()
    
    return data_limpio

**2.8 Función mostrar_ids_duplicados.** Función que recibe como parámetro un DataFrame y muestra diversa información acerca de la columna 'ID_Viaje' y sus posibles duplicados. También muestra si existen filas que son duplicados.

In [8]:
def mostrar_ids_duplicados(data):
    # Identificar los ID_Viaje duplicados
    duplicated_ids = data[data.duplicated(subset='ID_Viaje', keep=False)]['ID_Viaje']
    
    # Filtrar los registros que tienen estos ID_Viaje duplicados
    duplicated_records = data[data['ID_Viaje'].isin(duplicated_ids)]
    
    # Verificar si estos registros son completamente duplicados
    exact_duplicates = duplicated_records[duplicated_records.duplicated(keep=False)]
    
    # Verificar cuántos de estos registros son duplicados exactos
    count_exact_duplicates = exact_duplicates.shape[0]
    
    # Verificar cuántos registros tienen ID_Viaje duplicados
    count_total_duplicates = duplicated_records.shape[0]
    
    # Número de registros únicos con ID_Viaje duplicados
    unique_id_duplicates = duplicated_ids.nunique()
    
    print(f"El número total de registros con ID_Viaje duplicados es: {count_total_duplicates}")
    print(f"El número de registros que son completamente duplicados es: {count_exact_duplicates}")
    print(f"El número de ID_Viaje únicos duplicados es: {unique_id_duplicates}")

**2.9 Función plot_categorical_distribution.**  
Crea un gráfico de barras para la distribución de una columna categórica.  
Parámetros:
- data: DataFrame que contiene los datos.
- column: Nombre de la columna categórica para la cual se creará el gráfico.
- title: Título del gráfico (opcional).
- figsize: Tamaño de la figura (opcional).
- palette: Paleta de colores para el gráfico (opcional).

In [1]:
def plot_categorical_distribution(data, column, title='Distribución de la columna', figsize=(12, 6), palette='viridis'):
    """
    Crea un gráfico de barras para la distribución de una columna categórica.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - column: Nombre de la columna categórica para la cual se creará el gráfico.
    - title: Título del gráfico (opcional).
    - figsize: Tamaño de la figura (opcional).
    - palette: Paleta de colores para el gráfico (opcional).
    """
    # Crear un gráfico con tamaño específico
    fig, ax = plt.subplots(figsize=figsize)
    sns.countplot(x=column, data=data, ax=ax, hue=column, dodge=False, palette=palette, legend=False)

    # Establecer título y etiquetas
    ax.set_title(title, fontsize=14)
    ax.set_xlabel(column, fontsize=12)
    ax.set_ylabel('Cantidad', fontsize=12)

    # Rotar etiquetas del eje x para mejor legibilidad
    for label in ax.get_xticklabels():
        label.set_rotation(45)
        label.set_horizontalalignment('right')

    # Ajustar el diseño para que todo encaje bien
    plt.tight_layout()

    # Mostrar el gráfico
    plt.show()
    # Mostrar estadísticas descriptivas
    print(f'Estadísticas descriptivas de {column}')
    print(data[column].describe())


# Ejemplo de uso
# plot_categorical_distribution(data, 'Ruta', title='Distribución de Rutas')

**2.10 Función plot_histogram.**  
Genera un histograma y muestra estadísticas descriptivas para una columna numérica.  
Parámetros:  
- data: DataFrame que contiene los datos.
- column: Nombre de la columna numérica para la cual se creará el histograma.
- bins: Número de bins para el histograma (opcional).  **BEGO QUÉ SON LOS BINS**
- color: Color de las barras del histograma (opcional).

In [2]:
def plot_histogram(data, column, bins=30, color='orange'):
    """
    Genera un histograma y muestra estadísticas descriptivas para una columna numérica.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - column: Nombre de la columna numérica para la cual se creará el histograma.
    - bins: Número de bins para el histograma (opcional).
    - color: Color de las barras del histograma (opcional).
    """
    # Generar histograma
    plt.figure(figsize=(12, 6))
    sns.histplot(data[column].dropna(), kde=True, bins=bins, color=color)
    plt.title(f'Distribución de {column}')
    plt.xlabel(column)
    plt.ylabel('Frecuencia')
    plt.tight_layout()
    plt.show()

    # Mostrar estadísticas descriptivas
    print(f'Estadísticas descriptivas de {column}')
    print(data[column].describe())

# Ejemplo de uso plot_histogram(data, 'Numero_Pasajeros')