In [20]:
import pandas as pd
import numpy as np

In [6]:
# data = pd.ExcelFile('../data/datos.xlsx')
# df = data.parse('Consumo')

<pandas.io.excel._base.ExcelFile at 0x1248e3730>

In [21]:
# df.head()

In [27]:
import pandas as pd

# Cargar los datos manteniendo la estructura original
data = pd.ExcelFile('../data/datos.xlsx')
df = data.parse('Consumo')  # Manteniendo tu lectura original

# Limpiar filas completamente vacías
df_cleaned = df.dropna(how='all')

# Mapeo de posiciones de columnas para cada droga (basado en tu estructura)
tablas_config = {
    'Cocaína': {
        'start_col': 0,
        'cols': ['País', 'Cocaína', 'Categoría_Cocaína']
    },
    'Cannabis': {
        'start_col': 4,
        'cols': ['País', 'Cannabis', 'Categoría_Cannabis']
    },
    'Metanfetaminas': {
        'start_col': 8,
        'cols': ['País', 'Metanfetaminas', 'Categoría_Metanfetaminas']
    },
    'Opioides': {
        'start_col': 12,
        'cols': ['País', 'Opioides', 'Categoría_Opioides']
    }
}

def procesar_tabla(df, start_col, nombres_columnas):
    """Procesa cada tabla individual respetando tu estructura real"""
    try:
        # Seleccionar desde la fila 2 (índice 2) para saltar encabezados
        tabla = df.iloc[2:, start_col:start_col+3].copy()
        tabla.columns = nombres_columnas
        
        # Limpiar y convertir valores
        tabla = tabla.dropna(subset=['País'])
        col_valor = nombres_columnas[1]
        tabla[col_valor] = pd.to_numeric(tabla[col_valor], errors='coerce')
        
        return tabla[['País', col_valor]]
    
    except Exception as e:
        print(f"Error procesando {nombres_columnas[1]}: {str(e)}")
        return pd.DataFrame()

# Procesar todas las tablas
dataframes = {}
for droga, config in tablas_config.items():
    temp_df = procesar_tabla(df_cleaned, 
                           config['start_col'], 
                           config['cols'])
    dataframes[droga] = temp_df

# Combinar mediante merge sucesivo
df_final = dataframes['Cocaína']
for droga in ['Cannabis', 'Metanfetaminas', 'Opioides']:
    df_final = df_final.merge(dataframes[droga], 
                            on='País', 
                            how='outer')

# Aplicar categorizaciones (versión mejorada)
def aplicar_categorias(df):
    categorizadores = {
        'Cocaína': [
            (1.2, 'Alta'),
            (0.6, 'Media'),
            (0.29, 'Baja'),
            (-np.inf, 'Muy baja')
        ],
        'Cannabis': [
            (6.8, 'Alta'),
            (3.9, 'Media'),
            (2.3, 'Baja'),
            (-np.inf, 'Muy baja')
        ],
        'Metanfetaminas': [
            (0.9, 'Alta'),
            (0.48, 'Media'),
            (0.17, 'Baja'),
            (-np.inf, 'Muy Baja')
        ],
        'Opioides': [
            (1, 'Alta'),
            (0.5, 'Media'),
            (0.26, 'Baja'),
            (-np.inf, 'Muy baja')
        ]
    }
    
    for droga, limites in categorizadores.items():
        col_categoria = f'Categoría_{droga}'
        df[col_categoria] = df[droga].apply(
            lambda x: next((cat for lim, cat in limites if x > lim), 'Sin dato')
        )
    
    return df

df_final = aplicar_categorias(df_final)

# Ordenamiento final y limpieza
column_order = ['País'] + \
    [f'{d}|Categoría_{d}' for d in tablas_config.keys()]
    
df_final = df_final.fillna(0).sort_values('País').reset_index(drop=True)

print("DataFrame final procesado correctamente:")
print(df_final.head())

DataFrame final procesado correctamente:
        País  Cocaína  Cannabis  Metanfetaminas  Opioides Categoría_Cocaína  \
0    Albania     2.50      5.60            0.10      0.00              Alta   
1   Alemania     1.03      6.62            1.15      0.36             Media   
2    Argelia     0.01      0.52            0.03      0.00          Muy baja   
3  Argentina     1.20      5.67            0.00      0.19             Media   
4  Australia     0.00     10.80            1.73      3.10          Sin dato   

  Categoría_Cannabis Categoría_Metanfetaminas Categoría_Opioides  
0              Media                 Muy Baja           Sin dato  
1              Media                     Alta               Baja  
2           Muy baja                 Muy Baja           Sin dato  
3              Media                 Sin dato           Muy baja  
4               Alta                     Alta               Alta  


In [28]:
df_final.head()

Unnamed: 0,País,Cocaína,Cannabis,Metanfetaminas,Opioides,Categoría_Cocaína,Categoría_Cannabis,Categoría_Metanfetaminas,Categoría_Opioides
0,Albania,2.5,5.6,0.1,0.0,Alta,Media,Muy Baja,Sin dato
1,Alemania,1.03,6.62,1.15,0.36,Media,Media,Alta,Baja
2,Argelia,0.01,0.52,0.03,0.0,Muy baja,Muy baja,Muy Baja,Sin dato
3,Argentina,1.2,5.67,0.0,0.19,Media,Media,Sin dato,Muy baja
4,Australia,0.0,10.8,1.73,3.1,Sin dato,Alta,Alta,Alta


In [29]:
df_final.shape

(83, 9)

In [26]:
print("Columnas finales:", df_final.columns.tolist())
print("Países únicos:", df_final['País'].nunique())
print("Valores nulos:", df_final.isna().sum())

Columnas finales: ['País', 'Cocaína', 'Cannabis', 'Metanfetaminas', 'Opioides', 'Categoría_Cocaína', 'Categoría_Cannabis', 'Categoría_Metanfetaminas', 'Categoría_Opioides']
Países únicos: 83
Valores nulos: País                        0
Cocaína                     0
Cannabis                    0
Metanfetaminas              0
Opioides                    0
Categoría_Cocaína           0
Categoría_Cannabis          0
Categoría_Metanfetaminas    0
Categoría_Opioides          0
dtype: int64
