#### SERIE DE COMANDOS PARA INSTALLAR DEPENDENCIAS Y LIBRERIAS
DESCOMENTA EL CODIGO DEL SIGUIENTE BLOQUE PARA INSTALLAR PAQUETES LA PRIMERA VEZ DE EJECUCION


In [None]:
%pip install pandas
%pip install numpy
%pip install matplotlib
%pip install seaborn
%pip install scikit-learn
%pip install missingno
%pip install termcolor

___Recomiendo tambien instalar la extensions "Data Wrangler" de visual studio.___

# IMPORTE DE LIBRERIAS

In [2]:
# En Jupyter Notebook
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# sys: Manejo del entorno de ejecución del sistema.
import sys

# termcolor: Texto coloreado en la terminal.
from termcolor import colored

# sklearn.preprocessing: Transformación y escalado de datos.
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, MinMaxScaler

# numpy: Cálculos numéricos y manejo de matrices.
import numpy as np

# pandas: Análisis y manipulación de datos.
import pandas as pd

# Configuraciones para pandas
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas
pd.set_option('display.max_rows', None)     # Mostrar todas las filas
pd.set_option('display.expand_frame_repr', False)  # No ajustar automáticamente el contenido de los DataFrames
pd.set_option('display.max_colwidth', None)  # Mostrar el contenido completo de cada columna

# matplotlib.pyplot: Gráficos y visualización de datos.
import matplotlib.pyplot as plt

# seaborn: Gráficos estadísticos estilizados.
import seaborn as sns

# missingno: Visualización de datos faltantes.
import missingno as msno


# COMPROBACIONES BASICAS

#### Carga del dataset

In [3]:
df = pd.read_csv('./data-sets/WIN/daily_calendar_with_events.csv')

#### Información general del DataFrame
Esto muestra el número de entradas, las columnas y el tipo de datos.

In [4]:
print(colored("\nInformación general del DataFrame:", 'green', attrs=['reverse', 'blink']))
df.info()

[5m[7m[32m
Información general del DataFrame:[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1913 entries, 0 to 1912
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   date         1913 non-null   object
 1   weekday      1913 non-null   object
 2   weekday_int  1913 non-null   int64 
 3   d            1913 non-null   object
 4   event        26 non-null     object
dtypes: int64(1), object(4)
memory usage: 74.9+ KB


#### Revisión de columnas
Aquí mostramos los nombres de todas las columnas disponibles.

In [8]:
print(colored("\nColumnas del DataFrame:", 'green', attrs=['reverse', 'blink']))
df.columns

[5m[7m[32m
Columnas del DataFrame:[0m


Index(['date', 'weekday', 'weekday_int', 'd', 'event'], dtype='object')

#### Primeras filas del DataFrame
Visualizamos las primeras filas para hacernos una idea de los datos.


In [9]:
print(colored("\nPrimeras filas del DataFrame:", 'green', attrs=['reverse', 'blink']))
df.head()

[5m[7m[32m
Primeras filas del DataFrame:[0m


Unnamed: 0,date,weekday,weekday_int,d,event
0,2011-01-29,Saturday,1,d_1,
1,2011-01-30,Sunday,2,d_2,
2,2011-01-31,Monday,3,d_3,
3,2011-02-01,Tuesday,4,d_4,
4,2011-02-02,Wednesday,5,d_5,


#### Revisión de valores nulos
Verificamos cuántos valores faltan por columna para determinar si se requiere limpieza de datos.

In [10]:
print(colored("\nValores nulos por columna:", 'green', attrs=['reverse', 'blink']))
df.isnull().sum()

[5m[7m[32m
Valores nulos por columna:[0m


date              0
weekday           0
weekday_int       0
d                 0
event          1887
dtype: int64

#### Descripción estadística
Obtenemos un resumen estadístico de las columnas numéricas, como 'km' y 'potencia'.

In [11]:
print(colored("\nResumen estadístico de las columnas numéricas:", 'green', attrs=['reverse', 'blink']))
df.describe()

[5m[7m[32m
Resumen estadístico de las columnas numéricas:[0m


Unnamed: 0,weekday_int
count,1913.0
mean,3.997386
std,2.001175
min,1.0
25%,2.0
50%,4.0
75%,6.0
max,7.0


#### Comprobación de valores únicos en las columnas categóricas
Esto nos ayuda a entender la diversidad de valores en cada columna categórica y a mostrar ejemplos ordenados.

In [13]:
# Lista de columnas categóricas
categorical_columns = ['date', 'weekday', 'weekday_int', 'd', 'event']

# Ordenar las columnas por la cantidad de valores únicos en orden ascendente
sorted_columns = sorted(categorical_columns, key=lambda col: df[col].nunique())

# Crear un diccionario para almacenar los valores únicos
unique_values_dict = {}

# Iterar sobre las columnas ordenadas
for col in sorted_columns:
    unique_values_count = df[col].nunique()  # Número de valores únicos
    print(colored(f"\n{col}:", 'yellow'))
    print(f"\033[1m{unique_values_count} valores únicos\033[0m")

    # Si la columna tiene 100 o menos valores únicos, almacenamos los valores
    if unique_values_count <= 1000:
        unique_values = df[col].dropna().unique()[:1000]  # Obtén hasta 100 valores únicos
        unique_values_dict[col] = unique_values
    else:
        # Si hay más de 100 valores únicos, solo mostramos la cantidad
        print(colored(f" Demasiados valores únicos para mostrar (más de 100): {unique_values_count}", 'red'))

# Crear un DataFrame de los valores únicos con columnas alineadas horizontalmente
unique_values_df = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in unique_values_dict.items()]))

# Reemplazar NaN con cadenas vacías
unique_values_df = unique_values_df.fillna('')

[33m
event:[0m
[1m5 valores únicos[0m
[33m
weekday:[0m
[1m7 valores únicos[0m
[33m
weekday_int:[0m
[1m7 valores únicos[0m
[33m
date:[0m
[1m1913 valores únicos[0m
[31m Demasiados valores únicos para mostrar (más de 100): 1913[0m
[33m
d:[0m
[1m1913 valores únicos[0m
[31m Demasiados valores únicos para mostrar (más de 100): 1913[0m
