In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt

# Librerías para trabajar con fechas
# -----------------------------------------------------------------------
from datetime import datetime

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames
# pd.set_option('display.max_rows', None) # para poder visualizar todas las filas de los DataFrames

In [2]:
df = pd.read_csv('../../finanzas-hotel-bookings.csv', index_col=0)

  exec(code_obj, self.user_global_ns, self.user_ns)


In [None]:
def exploracion_df(dataframe):
    """
    Realiza un análisis exploratorio básico de un DataFrame, mostrando información sobre duplicados,
    valores nulos, tipos de datos, valores únicos para columnas categóricas y estadísticas descriptivas
    para columnas categóricas y numéricas, agrupadas por la columna de control.

    Parámetros:
    - dataframe (DataFrame): El DataFrame que se va a explorar.
    
    Returns: 
    No devuelve nada directamente, pero imprime en la consola la información exploratoria.
    """
    
    #Echamos un vistazo
    print("Primeras filas:")
    display(dataframe.head(5))
    print("\n......................\n")

    print("Últimas filas:")
    display(dataframe.tail(5))
    print("\n.....................\n")

    print("Filas aleatorias:")
    display(dataframe.sample(5))
    print("\n.....................\n")

    print(f"El dataframe tiene {dataframe.shape[0]} filas y {dataframe.shape[1]} columnas")
    print("\n.....................\n")    

    print("Tipos de datos y nulos:")
    display(dataframe.info())
    print("\n.....................\n")
    
    print("Características columnas númericas:")
    display(dataframe.describe().T)
    print("\n.....................\n")

    print("Características columnas de texto")
    try:
        display(dataframe.describe(include='O').T)  
    except:
        print("No hay columnas categóricas")
    print("\n.....................\n")

    print("Duplicados:")
    display(dataframe.duplicated().sum())
    print("\n.....................\n")

    # generamos un DataFrame para los valores nulos
    print("Los nulos que tenemos en el conjunto de datos son:")
    df_nulos = pd.DataFrame(dataframe.isnull().sum() / dataframe.shape[0] * 100, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])

    print("\n.....................\n")
    print("Los valores que tenemos para las columnas categóricas son: ")
    try:
        df_categoricas = dataframe.select_dtypes(include = "O")

        for col in df_categoricas.columns:
            print(f"La columna {col.upper()} tiene las siguientes valore únicos:")
            display(pd.DataFrame(dataframe[col].value_counts()/dataframe[col].shape[0])*100) 
    except:
        print("No hay columnas categóricas")
    print("\n.....................\n")  

In [None]:
# exploracion_df(df)

In [None]:
def get_info(df: pd.DataFrame):
    info = df.dtypes.to_frame('dtypes')
    info['non_null'] = df.count()
    info['null'] = 182877 -df.count()
    info['unique_values'] = df.apply(lambda srs: len(srs.unique()))
    return info

df_info=get_info(df)
df_info.to_csv("info.csv")

In [None]:
df.drop_duplicates(inplace = True)

In [None]:
df.dropna(how='all', inplace=True)

In [None]:
def str_to_nan(columna, cadena):
    """
    Convierte un string a un nulo de numpy

    Args:
        columna (Series): columna de un dataframe donde cambiar un string por np.nan

    Returns:
        columna (Series): devuelve la columna del dataframe con los strings especificados cambiados por nulos 
    """  
    return columna.replace(cadena, np.nan)

In [None]:
df['reservation_status_date'][df['reservation_status_date'] > '2020-01-01']

In [None]:
def a_fecha(cadena):
    try:
        return pd.to_datetime(cadena, format='%Y-%m-%d %H:%M:%S')
    except:
        return np.nan    

In [None]:
df['reservation_status_date'] = df['reservation_status_date'].apply(a_fecha)

In [None]:
df['reservation_status_date'] = df['reservation_status_date'].dt.year
df['reservation_status_date'].apply

In [None]:
df['arrival_date_year'] = df['arrival_date_year'].fillna(df['reservation_status_date'])
df['arrival_date_year'][df['arrival_date_year'].isna()]

In [None]:
display(df['arrival_date_year'].isna().sum()/df.shape[0]*100)

In [None]:
df['country'].unique()

In [None]:
codigo_paises = {
    'PRT': 'Portugal',
    np. nan: np.nan,
    'GBR': 'United Kingdom',
    'USA': 'United States',
    'ESP': 'Spain',
    'IRL': 'Ireland',
    'FRA': 'France',
    'ROU': 'Romania',
    'NOR': 'Norway',
    'OMN': 'Oman',
    'ARG': 'Argentina',
    'DEU': 'Germany',
    'CHE': 'Switzerland',
    'GRC': 'Greece',
    'NLD': 'Netherlands',
    'DNK': 'Denmark',
    'RUS': 'Russia',
    'POL': 'Poland',
    'AUS': 'Australia',
    'EST': 'Estonia',
    'CZE': 'Czech Republic',
    'BRA': 'Brazil',
    'BEL': 'Belgium',
    'CN': 'China',
    'SWE': 'Sweden',
    'FIN': 'Finland',
    'MOZ': 'Mozambique',
    'SVN': 'Slovenia',
    'MAR': 'Morocco',
    'ITA': 'Italy',
    'UKR': 'Ukraine',
    'SMR': 'San Marino',
    'LVA': 'Latvia',
    'PRI': 'Puerto Rico',
    'CHL': 'Chile',
    'CHN': 'China',
    'LTU': 'Lithuania',
    'LUX': 'Luxembourg',
    'AUT': 'Austria',
    'TUR': 'Turkey',
    'MEX': 'Mexico',
    'ZAF': 'South Africa',
    'AGO': 'Angola',
    'ISR': 'Israel',
    'IND': 'India',
    'CYM': 'Cayman Islands',
    'ZMB': 'Zambia',
    'CPV': 'Cape Verde',
    'ZWE': 'Zimbabwe',
    'DZA': 'Algeria',
    'KOR': 'South Korea',
    'HUN': 'Hungary',
    'ARE': 'United Arab Emirates',
    'TUN': 'Tunisia',
    'JAM': 'Jamaica',
    'ALB': 'Albania',
    'HRV': 'Croatia',
    'HKG': 'Hong Kong',
    'AND': 'Andorra',
    'GIB': 'Gibraltar',
    'URY': 'Uruguay',
    'BLR': 'Belarus',
    'JEY': 'Jersey',
    'CYP': 'Cyprus',
    'MDV': 'Maldives',
    'FJI': 'Fiji',
    'KAZ': 'Kazakhstan',
    'PAK': 'Pakistan',
    'IDN': 'Indonesia',
    'LBN': 'Lebanon',
    'PHL': 'Philippines',
    'COL': 'Colombia',
    'SEN': 'Senegal',
    'GEO': 'Georgia',
    'AZE': 'Azerbaijan',
    'BHR': 'Bahrain',
    'NZL': 'New Zealand',
    'THA': 'Thailand',
    'DOM': 'Dominican Republic',
    'MYS': 'Malaysia',
    'VEN': 'Venezuela',
    'ARM': 'Armenia',
    'LKA': 'Sri Lanka',
    'CUB': 'Cuba',
    'CMR': 'Cameroon',
    'IRN': 'Iran',
    'BIH': 'Bosnia and Herzegovina',
    'NGA': 'Nigeria',
    'COM': 'Comoros',
    'BGR': 'Bulgaria',
    'CIV': 'Ivory Coast',
    'SRB': 'Serbia',
    'JOR': 'Jordan',
    'SYR': 'Syria',
    'BDI': 'Burundi',
    'SGP': 'Singapore',
    'KWT': 'Kuwait',
    'PLW': 'Palau',
    'QAT': 'Qatar',
    'SVK': 'Slovakia',
    'SUR': 'Suriname',
    'MLT': 'Malta',
    'MWI': 'Malawi',
    'MDG': 'Madagascar',
    'ISL': 'Iceland',
    'JPN': 'Japan',
    'CAF': 'Central African Republic',
    'TGO': 'Togo',
    'TWN': 'Taiwan',
    'DJI': 'Djibouti',
    'VNM': 'Vietnam',
    'PER': 'Peru',
    'EGY': 'Egypt',
    'SAU': 'Saudi Arabia',
    'KNA': 'Saint Kitts and Nevis',
    'ETH': 'Ethiopia',
    'ECU': 'Ecuador',
    'IRQ': 'Iraq',
    'KHM': 'Cambodia',
    'MCO': 'Monaco',
    'BGD': 'Bangladesh',
    'TJK': 'Tajikistan',
    'NIC': 'Nicaragua',
    'GGY': 'Guernsey',
    'BEN': 'Benin',
    'VGB': 'British Virgin Islands',
    'CRI': 'Costa Rica',
    'TZA': 'Tanzania',
    'GAB': 'Gabon',
    'MKD': 'North Macedonia',
    'TMP': 'East Timor',
    'GLP': 'Guadeloupe',
    'LIE': 'Liechtenstein',
    'GNB': 'Guinea-Bissau',
    'MAC': 'Macau',
    'IMN': 'Isle of Man',
    'UMI': 'U.S. Minor Outlying Islands',
    'MYT': 'Mayotte',
    'GHA': 'Ghana',
    'FRO': 'Faroe Islands',
    'MMR': 'Myanmar',
    'PAN': 'Panama',
    'MUS': 'Mauritius',
    'LBY': 'Libya',
    'NAM': 'Namibia',
    'BOL': 'Bolivia',
    'PRY': 'Paraguay',
    'BRB': 'Barbados',
    'ABW': 'Aruba',
    'AIA': 'Anguilla',
    'DMA': 'Dominica',
    'UGA': 'Uganda',
    'MNE': 'Montenegro',
    'GTM': 'Guatemala',
    'ASM': 'American Samoa',
    'KEN': 'Kenya',
    'NCL': 'New Caledonia',
    'STP': 'Sao Tome and Principe',
    'KIR': 'Kiribati',
    'SDN': 'Sudan',
    'ATF': 'French Southern Territories',
    'SLE': 'Sierra Leone',
    'SLV': 'El Salvador',
    'LAO': 'Laos'
}


In [None]:
df["country"]=df["country"].map(codigo_paises)

In [None]:
mapa_repeted = {1 :'Recurrent', 0 : 'First time', np.nan : np.nan}

In [None]:
df["is_repeated_guest"]=df["is_repeated_guest"].map(mapa_repeted)
df['is_repeated_guest'].unique()

In [None]:
mapa_cancel = {True :'Cancelado', False : 'No Cancelado', np.nan: np.nan}

In [None]:
df["is_canceled"]=df["is_canceled"].map(mapa_cancel)
df['is_canceled'].unique()

In [None]:
df['arrival_date_month'] = df['arrival_date_month'].str.replace('1', 'January').str.replace('2', 'February').str.replace('3', 'March')
df['arrival_date_month'].unique()

In [None]:
df['previous_bookings_not_canceled'].value_counts()/df.shape[0]*100

In [None]:
df_rooms = df[['reserved_room_type', 'assigned_room_type']].sort_values

In [None]:
df_channels = df[['market_segment', 'distribution_channel']][df['market_segment'].notna()&df['distribution_channel'].notna()]
df_channel = df_channels.groupby(['market_segment', 'distribution_channel']).size().reset_index(name='Freq').sort_values(by='distribution_channel')
df_channel

In [None]:
col_desconocido = ['company', 'market_segment', 'country', 'reserved_room_type', 'customer_type', 'agent', 'distribution_channel', 'hotel', 'is_canceled', 'arrival_date_month', 'meal']
# df[columna]=df[columna].fillna('Unknown')"
col_moda = ['children', 'previous_cancellations', 'is_repeated_guest', 'previous_bookings_not_canceled' ]
# df.drop(columns = columnas_borrar, axis=1, inplace=True)
col_eliminar= ['reservation_status_date','0']