In [1]:
import pandas as pd
import numpy as np

In [2]:
print(f"Pandas: {pd.__version__}")
print(f"NumPy: {np.__version__}")

Pandas: 2.3.3
NumPy: 2.3.4


In [None]:
import pandas as pd
import numpy as np

def analizar_dataframe(df):
    """
    An√°lisis eficiente de DataFrame usando operaciones vectorizadas.
    
    Parameters:
    -----------
    df : pandas.DataFrame
        DataFrame a analizar
        
    Returns:
    --------
    pandas.DataFrame
        DataFrame con el an√°lisis de cada columna
    """
    
    # Pre-calcular informaci√≥n com√∫n para todas las columnas
    total_filas = len(df)
    
    # Lista para almacenar resultados
    resultados = []
    
    for columna in df.columns:
        col_data = df[columna]
        
        # Tipo de dato (m√°s eficiente con select_dtypes)
        es_numerica = pd.api.types.is_numeric_dtype(col_data)
        tipo = 'Num√©rica' if es_numerica else 'Alfanum√©rica'
        
        # M√°scara de nulos (calcular una sola vez)
        mask_nulos = col_data.isna()
        cantidad_nulos = mask_nulos.sum()
        
        # Valores distintos (incluidos null) - muy eficiente
        valores_distintos = col_data.nunique(dropna=False)
        
        # Inicializar contadores
        cantidad_blancos = 0
        cantidad_ceros = 0
        cantidad_negativos = 0
        
        if es_numerica:
            # Operaciones vectorizadas para num√©ricos (muy r√°pido)
            col_no_nulos = col_data.dropna()
            if len(col_no_nulos) > 0:
                cantidad_ceros = (col_no_nulos == 0).sum()
                cantidad_negativos = (col_no_nulos < 0).sum()
        else:
            # Para alfanum√©ricos, usar operaciones de string vectorizadas
            # M√°s eficiente que apply
            if col_data.dtype == 'object':
                # Filtrar solo strings y contar blancos en una operaci√≥n
                mask_strings = col_data.apply(lambda x: isinstance(x, str))
                if mask_strings.any():
                    cantidad_blancos = col_data[mask_strings].str.strip().eq('').sum()
        
        # 5 valores de ejemplo (optimizado)
        valores_unicos = col_data.dropna().unique()
        valores_ejemplo = valores_unicos[:5] if len(valores_unicos) > 0 else []
        valores_ejemplo_str = ', '.join(map(str, valores_ejemplo))
        
        # Agregar resultados
        resultados.append({
            'Columna': columna,
            'Tipo': tipo,
            'Total Valores': total_filas,
            'Nulos': int(cantidad_nulos),
            'Valores Distintos': int(valores_distintos),
            'Valores Blancos': int(cantidad_blancos),
            'Valores Cero': int(cantidad_ceros),
            'Valores Negativos': int(cantidad_negativos),
            'Ejemplos': valores_ejemplo_str
        })
    
    return pd.DataFrame(resultados)


def analizar_csv(ruta_archivo, separador=',', encoding='utf-8', nrows=None):
    """
    Lee y analiza un archivo CSV de forma eficiente.
    
    Parameters:
    -----------
    ruta_archivo : str
        Ruta del archivo CSV
    separador : str, default=','
        Separador del CSV
    encoding : str, default='utf-8'
        Codificaci√≥n del archivo
    nrows : int, optional
        N√∫mero de filas a leer (√∫til para archivos grandes)
        
    Returns:
    --------
    tuple
        (DataFrame original, DataFrame de an√°lisis)
    """
    
    print(f"Leyendo archivo: {ruta_archivo}")
    
    # Leer CSV con optimizaciones
    df = pd.read_csv(
        ruta_archivo, 
        sep=separador, 
        encoding=encoding,
        nrows=nrows,
        low_memory=False  # M√°s r√°pido para archivos grandes
    )
    
    print(f"‚úì Archivo cargado: {df.shape[0]:,} filas, {df.shape[1]} columnas\n")
    
    print("Analizando columnas...")
    df_analisis = analizar_dataframe(df)
    print("‚úì An√°lisis completado\n")
    
    return df, df_analisis


# ============================================
# VERSI√ìN ULTRA OPTIMIZADA (para Big Data)
# ============================================

def analizar_csv_chunked(ruta_archivo, chunksize=10000, separador=',', encoding='utf-8'):
    """
    Analiza archivos CSV muy grandes por chunks (evita cargar todo en memoria).
    Ideal para datasets de millones de filas.
    
    Parameters:
    -----------
    ruta_archivo : str
        Ruta del archivo CSV
    chunksize : int, default=10000
        N√∫mero de filas por chunk
    separador : str, default=','
        Separador del CSV
    encoding : str, default='utf-8'
        Codificaci√≥n del archivo
        
    Returns:
    --------
    pandas.DataFrame
        DataFrame con el an√°lisis de cada columna
    """
    
    print(f"Analizando archivo por chunks de {chunksize:,} filas...")
    
    # Diccionarios para acumular estad√≠sticas
    stats = {}
    total_rows = 0
    
    # Leer por chunks
    for i, chunk in enumerate(pd.read_csv(ruta_archivo, sep=separador, 
                                          encoding=encoding, chunksize=chunksize)):
        
        total_rows += len(chunk)
        
        for columna in chunk.columns:
            if columna not in stats:
                # Inicializar estad√≠sticas para nueva columna
                es_numerica = pd.api.types.is_numeric_dtype(chunk[columna])
                stats[columna] = {
                    'tipo': 'Num√©rica' if es_numerica else 'Alfanum√©rica',
                    'nulos': 0,
                    'valores_unicos': set(),
                    'blancos': 0,
                    'ceros': 0,
                    'negativos': 0,
                    'ejemplos': []
                }
            
            col_data = chunk[columna]
            col_stats = stats[columna]
            
            # Acumular nulos
            col_stats['nulos'] += col_data.isna().sum()
            
            # Acumular valores √∫nicos (limitado para eficiencia)
            if len(col_stats['valores_unicos']) < 10000:
                col_stats['valores_unicos'].update(col_data.dropna().unique())
            
            # Ejemplos (solo del primer chunk)
            if i == 0 and len(col_stats['ejemplos']) < 5:
                ejemplos = col_data.dropna().unique()[:5].tolist()
                col_stats['ejemplos'].extend(ejemplos)
            
            # Estad√≠sticas espec√≠ficas por tipo
            if col_stats['tipo'] == 'Num√©rica':
                col_no_nulos = col_data.dropna()
                col_stats['ceros'] += (col_no_nulos == 0).sum()
                col_stats['negativos'] += (col_no_nulos < 0).sum()
            else:
                if col_data.dtype == 'object':
                    mask_strings = col_data.apply(lambda x: isinstance(x, str))
                    if mask_strings.any():
                        col_stats['blancos'] += col_data[mask_strings].str.strip().eq('').sum()
        
        if (i + 1) % 10 == 0:
            print(f"  Procesados {total_rows:,} filas...")
    
    print(f"‚úì An√°lisis completado: {total_rows:,} filas totales\n")
    
    # Construir DataFrame de resultados
    resultados = []
    for columna, col_stats in stats.items():
        resultados.append({
            'Columna': columna,
            'Tipo': col_stats['tipo'],
            'Total Valores': total_rows,
            'Nulos': int(col_stats['nulos']),
            'Valores Distintos': len(col_stats['valores_unicos']),
            'Valores Blancos': int(col_stats['blancos']),
            'Valores Cero': int(col_stats['ceros']),
            'Valores Negativos': int(col_stats['negativos']),
            'Ejemplos': ', '.join(map(str, col_stats['ejemplos'][:5]))
        })
    
    return pd.DataFrame(resultados)


# ============================================
# EJEMPLO DE USO
# ============================================

if __name__ == "__main__":
    
    # ===== PARA ARCHIVOS NORMALES (< 1 GB) =====
    ruta_csv = 'C:\\Users\\fierr\\OneDrive\\Documents\\UDEMY\\forecastWallmark\\forecast\\ml_forecast_time_series\\data\\raw\\train.csv'
    df_original, df_analisis = analizar_csv(ruta_csv)
    
    print("=" * 100)
    print("AN√ÅLISIS DE COLUMNAS")
    print("=" * 100)
    print(df_analisis.to_string(index=False))
    
    # ===== PARA ARCHIVOS GRANDES (> 1 GB) =====
    # df_analisis = analizar_csv_chunked(ruta_csv, chunksize=50000)
    # print(df_analisis.to_string(index=False))
    
    # Guardar resultado
    df_analisis.to_csv('reports/analisis_columnas.csv', index=False)
    print("\n‚úì An√°lisis guardado en: reports/analisis_columnas.csv")

In [None]:
import pandas as pd
import numpy as np
from tabulate import tabulate

# ============================================
# AN√ÅLISIS SIMPLE DE SERIES DE TIEMPO
# ============================================

def analizar_series(df, col_fecha='date', col_store='store', col_item='item'):
    """
    An√°lisis r√°pido de series de tiempo por store e item.
    """
    
    print("="*80)
    print("AN√ÅLISIS DE SERIES DE TIEMPO")
    print("="*80 + "\n")
    
    # Convertir fecha si es necesario
    if not pd.api.types.is_datetime64_any_dtype(df[col_fecha]):
        df[col_fecha] = pd.to_datetime(df[col_fecha])
    
    print(f"üìä Total registros: {len(df):,}")
    print(f"üè™ Stores √∫nicos: {df[col_store].nunique():,}")
    print(f"üì¶ Items √∫nicos: {df[col_item].nunique():,}")
    
    # An√°lisis por (store, item)
    analisis = df.groupby([col_store, col_item]).agg(
        registros=pd.NamedAgg(column=col_fecha, aggfunc='count'),
        fecha_min=pd.NamedAgg(column=col_fecha, aggfunc='min'),
        fecha_max=pd.NamedAgg(column=col_fecha, aggfunc='max')
    ).reset_index()
    
    # Calcular d√≠as
    analisis['dias_totales'] = (analisis['fecha_max'] - analisis['fecha_min']).dt.days + 1
    analisis['dias_esperados'] = analisis['dias_totales']
    analisis['completitud_pct'] = (analisis['registros'] / analisis['dias_esperados'] * 100).round(2)
    analisis['registros_faltantes'] = analisis['dias_esperados'] - analisis['registros']
    
    print(f"üî¢ Combinaciones (store, item): {len(analisis):,}\n")
    
    return analisis


def analizar_por_deciles(analisis_df):
    """
    Agrupa las series por deciles seg√∫n el n√∫mero de registros.
    """
    
    # Calcular deciles
    try:
        analisis_df['decil'] = pd.qcut(
            analisis_df['registros'], 
            q=10, 
            labels=False,
            duplicates='drop'
        )
        # Convertir a etiquetas D1, D2, etc.
        analisis_df['decil'] = 'D' + (analisis_df['decil'] + 1).astype(str)
    except Exception:
        # Si no se pueden calcular 10 deciles, usar percentiles
        analisis_df['decil'] = pd.cut(
            analisis_df['registros'],
            bins=10,
            labels=['D1', 'D2', 'D3', 'D4', 'D5', 'D6', 'D7', 'D8', 'D9', 'D10']
        )
    
    # Estad√≠sticas por decil
    deciles = analisis_df.groupby('decil', observed=True).agg({
        'store': 'count',
        'registros': ['min', 'max', 'mean'],
        'completitud_pct': 'mean',
        'registros_faltantes': ['mean', 'sum']
    }).round(2)
    
    deciles.columns = ['num_series', 'registros_min', 'registros_max', 
                      'registros_prom', 'completitud_prom', 
                      'faltantes_prom', 'faltantes_total']
    
    return deciles, analisis_df


def mostrar_resultados(analisis_df, deciles_df):
    """
    Muestra los resultados del an√°lisis.
    """
    
    print("="*80)
    print("RESUMEN ESTAD√çSTICO")
    print("="*80 + "\n")
    
    resumen_data = {
        'M√©trica': [
            'Combinaciones (store, item)',
            'Registros promedio',
            'Registros m√≠nimo',
            'Registros m√°ximo',
            'Completitud promedio',
            'Series 100% completas',
            'Series con gaps'
        ],
        'Valor': [
            f"{len(analisis_df):,}",
            f"{analisis_df['registros'].mean():.0f}",
            f"{analisis_df['registros'].min():,}",
            f"{analisis_df['registros'].max():,}",
            f"{analisis_df['completitud_pct'].mean():.1f}%",
            f"{(analisis_df['completitud_pct'] == 100).sum():,} ({(analisis_df['completitud_pct'] == 100).sum()/len(analisis_df)*100:.1f}%)",
            f"{(analisis_df['registros_faltantes'] > 0).sum():,} ({(analisis_df['registros_faltantes'] > 0).sum()/len(analisis_df)*100:.1f}%)"
        ]
    }
    
    print(tabulate(pd.DataFrame(resumen_data), headers='keys', tablefmt='grid', showindex=False))
    
    print("\n" + "="*80)
    print("AN√ÅLISIS POR DECILES (seg√∫n n√∫mero de registros)")
    print("="*80 + "\n")
    print(tabulate(deciles_df, headers='keys', tablefmt='grid'))
    
    # Distribuci√≥n de completitud
    print("\n" + "="*80)
    print("DISTRIBUCI√ìN DE COMPLETITUD")
    print("="*80 + "\n")
    
    bins_completitud = [0, 50, 70, 80, 90, 95, 99, 100]
    analisis_df['rango_completitud'] = pd.cut(
        analisis_df['completitud_pct'], 
        bins=bins_completitud,
        labels=['0-50%', '50-70%', '70-80%', '80-90%', '90-95%', '95-99%', '99-100%']
    )
    
    dist_completitud = analisis_df['rango_completitud'].value_counts().sort_index()
    dist_completitud_pct = (dist_completitud / len(analisis_df) * 100).round(2)
    
    completitud_tabla = pd.DataFrame({
        'Rango Completitud': dist_completitud.index,
        'Num Series': dist_completitud.values,
        '% del Total': dist_completitud_pct.values
    })
    
    print(tabulate(completitud_tabla, headers='keys', tablefmt='grid', showindex=False))


# ============================================
# FUNCI√ìN PRINCIPAL - USO R√ÅPIDO
# ============================================

def analisis_completo(df, exportar=True):
    """
    Ejecuta an√°lisis completo y exporta resultados.
    
    Parameters:
    -----------
    df : pandas.DataFrame
        DataFrame con columnas: date, store, item
    exportar : bool
        Si True, exporta a CSV
    
    Returns:
    --------
    tuple
        (analisis_df, deciles_df)
    """
    
    # 1. An√°lisis por serie
    analisis_df = analizar_series(df)
    
    # 2. An√°lisis por deciles
    deciles_df, analisis_df = analizar_por_deciles(analisis_df)
    
    # 3. Mostrar resultados
    mostrar_resultados(analisis_df, deciles_df)
    
    # 4. Exportar
    if exportar:
        print("\n" + "="*80)
        print("EXPORTANDO RESULTADOS")
        print("="*80 + "\n")
        
        analisis_df.to_csv('analisis_series_completo.csv', index=False)
        print("‚úì analisis_series_completo.csv")
        
        deciles_df.to_csv('analisis_deciles.csv')
        print("‚úì analisis_deciles.csv")
        
        # Exportar series con problemas
        series_problemas = analisis_df[analisis_df['completitud_pct'] < 90]
        if len(series_problemas) > 0:
            series_problemas.to_csv('series_incompletas.csv', index=False)
            print("‚úì series_incompletas.csv")
    
    return analisis_df, deciles_df


# ============================================
# EJEMPLO DE USO CON TU DATASET
# ============================================

if __name__ == "__main__":
    
    # Ruta de tu archivo
    ruta_archivo = r'C:\Users\fierr\OneDrive\Documents\UDEMY\forecastWallmark\forecast\ml_forecast_time_series\data\raw\train.csv'
    
    # Schema de tipos
    raw_schema = {
        'store': 'Int64',
        'item': 'Int64',
        'sales': 'Int64'
    }
    
    # Schema de fechas
    date_schema = {
        'date': '%Y-%m-%d'
    }
    
    # Leer CSV
    print("üìÇ Leyendo CSV...\n")
    
    # Opci√≥n 1: Lectura simple
    df = pd.read_csv(ruta_archivo, dtype=raw_schema, parse_dates=['date'])
    
    # O usando tu funci√≥n personalizada:
    # from tu_funcion_mejorada import leer_csv
    # df = leer_csv(ruta_archivo, df_schema=raw_schema, date_schema=date_schema)
    
    print(f"‚úì Datos cargados: {df.shape[0]:,} registros\n")
    
    # Ejecutar an√°lisis completo
    analisis_df, deciles_df = analisis_completo(df, exportar=True)
    
    # ========================================
    # CONSULTAS ADICIONALES
    # ========================================
    
    print("\n" + "="*80)
    print("CONSULTAS ADICIONALES")
    print("="*80 + "\n")
    
    # Top 10 series con m√°s registros
    print("üìä TOP 10 SERIES CON M√ÅS REGISTROS:")
    top_10 = analisis_df.nlargest(10, 'registros')[['store', 'item', 'registros', 'completitud_pct']]
    print(tabulate(top_10, headers='keys', tablefmt='grid', showindex=False))
    
    print("\nüìä TOP 10 SERIES CON MENOS REGISTROS:")
    bottom_10 = analisis_df.nsmallest(10, 'registros')[['store', 'item', 'registros', 'completitud_pct']]
    print(tabulate(bottom_10, headers='keys', tablefmt='grid', showindex=False))
    
    # Series por decil
    print("\nüìä N√öMERO DE SERIES POR DECIL:")
    series_por_decil = analisis_df['decil'].value_counts().sort_index()
    print(tabulate(series_por_decil.reset_index(), headers=['Decil', 'Num Series'], 
                  tablefmt='grid', showindex=False))
    
    # Ejemplo: filtrar serie espec√≠fica
    print("\nüìä EJEMPLO: Serie Store=1, Item=1:")
    serie_ejemplo = analisis_df[(analisis_df['store'] == 1) & (analisis_df['item'] == 1)]
    if len(serie_ejemplo) > 0:
        print(tabulate(serie_ejemplo[['store', 'item', 'registros', 'fecha_min', 
                                     'fecha_max', 'dias_totales', 'completitud_pct']], 
                      headers='keys', tablefmt='grid', showindex=False))
    
    # Series por rango de completitud
    print("\nüìä SERIES POR RANGO DE COMPLETITUD:")
    completitud_rangos = analisis_df.groupby('rango_completitud', observed=True).size()
    print(tabulate(completitud_rangos.reset_index(), headers=['Rango', 'Cantidad'], 
                  tablefmt='grid', showindex=False))
    
    # Estad√≠sticas por decil
    print("\nüìä ESTAD√çSTICAS POR DECIL:")
    for decil in ['D1', 'D5', 'D10']:
        if decil in analisis_df['decil'].values:
            series_decil = analisis_df[analisis_df['decil'] == decil]
            print(f"\n{decil}:")
            print(f"  - Series: {len(series_decil)}")
            print(f"  - Registros promedio: {series_decil['registros'].mean():.0f}")
            print(f"  - Registros min-max: {series_decil['registros'].min()}-{series_decil['registros'].max()}")
            print(f"  - Completitud promedio: {series_decil['completitud_pct'].mean():.1f}%")

# COD

In [None]:
def leer_csv(ruta, separador=',', encoding='utf-8', df_schema={}, date_schema={}):
    df = pd.read_csv(
        ruta,
        sep = separador,                          # Separador
        encoding = encoding,                 # Codificaci√≥n
        dtype = df_schema,                 # ‚Üê AQU√ç VA EL DICCIONARIO
        #parse_dates = date,                 # Columnas de fecha
        #na_values=valores_nulos,          # Qu√© considerar como nulo
        low_memory = False                  # M√°s r√°pido para archivos grandes
    )

    #convertimos lo que sea fecha
    if date_schema:
        for col_fecha, formato in date_schema.items():
            df[col_fecha] = pd.to_datetime(df[col_fecha], format=formato, errors='coerce')
            #print(f"   ‚úì {col_fecha} ‚Üí datetime ({formato})")

    return df

def analizar_csv(df):
    # Pre-calcular informaci√≥n com√∫n para todas las columnas
    total_filas = len(df)
    
    # Lista para almacenar resultados
    resultados = []
    
    for columna in df.columns:
        col_data = df[columna]
        
        # Tipo de dato (m√°s eficiente con select_dtypes)
        es_numerica = pd.api.types.is_numeric_dtype(col_data)
        tipo = 'Num√©rica' if es_numerica else 'Alfanum√©rica'
        
        # M√°scara de nulos (calcular una sola vez)
        mask_nulos = col_data.isna()
        cantidad_nulos = mask_nulos.sum()
        
        # Valores distintos (incluidos null) - muy eficiente
        valores_distintos = col_data.nunique(dropna=False)
        
        # Inicializar contadores
        cantidad_blancos = 0
        cantidad_ceros = 0
        cantidad_negativos = 0
        
        if es_numerica:
            # Operaciones vectorizadas para num√©ricos (muy r√°pido)
            col_no_nulos = col_data.dropna()
            if len(col_no_nulos) > 0:
                cantidad_ceros = (col_no_nulos == 0).sum()
                cantidad_negativos = (col_no_nulos < 0).sum()
        else:
            # Para alfanum√©ricos, usar operaciones de string vectorizadas
            # M√°s eficiente que apply
            if col_data.dtype == 'object':
                # Filtrar solo strings y contar blancos en una operaci√≥n
                mask_strings = col_data.apply(lambda x: isinstance(x, str))
                if mask_strings.any():
                    cantidad_blancos = col_data[mask_strings].str.strip().eq('').sum()
        
        # 5 valores de ejemplo (optimizado)
        valores_unicos = col_data.dropna().unique()
        valores_ejemplo = valores_unicos[:5] if len(valores_unicos) > 0 else []
        valores_ejemplo_str = ', '.join(map(str, valores_ejemplo))
        
        # Agregar resultados
        resultados.append({
            'Columna': columna,
            'Tipo': tipo,
            'Total Valores': total_filas,
            'Nulos': int(cantidad_nulos),
            'Valores Distintos': int(valores_distintos),
            'Valores Blancos': int(cantidad_blancos),
            'Valores Cero': int(cantidad_ceros),
            'Valores Negativos': int(cantidad_negativos),
            'Ejemplos': valores_ejemplo_str
        })
    
    return pd.DataFrame(resultados)

if __name__ == "__main__":
    ruta_archivo = 'C:\\Users\\fierr\\OneDrive\\Documents\\UDEMY\\forecastWallmark\\forecast\\ml_forecast_time_series\\data\\raw\\train.csv'
    separador=','
    encoding='utf-8'

    raw_schema={
        'date': 'string',
        'store': 'Int64',        # Con may√∫scula acepta nulos
        'item': 'Int64',
        'sales': 'Int64'
    }

    date_schema={'date': '%Y-%m-%d'}

    df = leer_csv(ruta_archivo,separador,encoding,raw_schema,date_schema)
    df_analisis= analizar_csv(df)
    #df_analisis.to_string(index=False)

    #from tabulate import tabulate
    #print(tabulate(df_analisis, headers='keys', tablefmt='fancy_grid', showindex=False))
    #display(df_analisis)

‚ïí‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï§‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï§‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï§‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï§‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï§‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï§‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï§‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï§‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïï
‚îÇ Columna   ‚îÇ Tipo         ‚îÇ   Total Valores ‚îÇ   Nulos ‚îÇ   Valores Distintos ‚îÇ   Valores Blancos ‚îÇ   Valores Cero ‚îÇ   Valores Negativos ‚îÇ Ejemplos                                                                                                ‚îÇ
‚ïû‚ïê

In [None]:
leer csv
evaluar analisis de columnas
EDA
    outliers
    distribucion
    graficos
procesar datos
metodos de prediccion 