# TABLA 2074

## Librerias

In [2]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns

from pprint import pprint


## Carregar el fitxer

In [14]:
# Obtener la ruta actual del notebook o del entorno interactivo
script_dir = os.getcwd()  # Esto es el directorio donde está abierto el notebook

# Ruta relativa desde Script/ a Data/
carpeta_ine = os.path.normpath(os.path.join(script_dir, '..', 'Data'))
# Diccionari per guardar els DataFrames carregats
df_ine = {}

# Llista d'arxius CSV amb els seus noms específics
arxius_csv_ine = {
    'df_2074': '2074.csv',
    'df_2065': '2065.csv',
    'df_2038': '2038.csv'
}

# Iterem sobre els arxius i carreguem cadascun
for nom_df, arxiu in arxius_csv_ine.items():
    ruta_csv = os.path.join(carpeta_ine, arxiu)
    
    try:
        # Carreguem el fitxer amb l'encoding utf-8-sig per eliminar el BOM
        df_ine[nom_df] = pd.read_csv(
            ruta_csv,
            sep='\t',              # Separador CSV tabuladores
            encoding='utf-8-sig', # Codificació per evitar problemes amb BOM
            low_memory=False      # Evitem warnings de tipus de dades
        )
        print(f"Fitxer {arxiu} carregat correctament com a {nom_df}.")
    except Exception as e:
        print(f"Error carregant el fitxer {arxiu}: {e}")

# Mostrem les primeres files dels arxius carregats
for nom_df, df in df_ine.items():
    print(f"\nPrimeres files de {nom_df}:")
    print(df.head())

Fitxer 2074.csv carregat correctament com a df_2074.
Fitxer 2065.csv carregat correctament com a df_2065.
Fitxer 2038.csv carregat correctament com a df_2038.

Primeres files de df_2074:
  Totales Territoriales Comunidades y Ciudades Autónomas Provincias  \
0        Total Nacional                              NaN        NaN   
1        Total Nacional                              NaN        NaN   
2        Total Nacional                              NaN        NaN   
3        Total Nacional                              NaN        NaN   
4        Total Nacional                              NaN        NaN   

  Viajeros y pernoctaciones Residencia: Nivel 1 Residencia: Nivel 2  Periodo  \
0                   Viajero               Total                 NaN  2025M03   
1                   Viajero               Total                 NaN  2025M02   
2                   Viajero               Total                 NaN  2025M01   
3                   Viajero               Total                 Na

# Netejar dade

In [8]:
# Recorrem tots els DataFrames carregats al diccionari df_ine
for nom_df, df in df_ine.items():
    if 'Total' in df.columns:
        df_ine[nom_df]['Total'] = (
            df['Total']
            .astype(str)
            .str.replace('.', '', regex=False)  # Elimina punts dels milers
            .str.replace(',', '.', regex=False)  # Converteix coma a punt decimal
        )
        # Convertim a numèric
        df_ine[nom_df]['Total'] = pd.to_numeric(df_ine[nom_df]['Total'], errors='coerce')
        print(f"Neteja aplicada a la columna 'Total' de {nom_df}")
    else:
        print(f"El DataFrame {nom_df} no té una columna 'Total'.")


Neteja aplicada a la columna 'Total' de df_2074
Neteja aplicada a la columna 'Total' de df_2065
Neteja aplicada a la columna 'Total' de df_2038


# Assignar dataframe

In [18]:
# Assignar els DataFrames
df_2074 = df_ine['df_2074']
df_2065 = df_ine['df_2065']
df_2038 = df_ine['df_2038']

# Exploració df_2074

In [19]:
df_2074.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132300 entries, 0 to 132299
Data columns (total 8 columns):
 #   Column                            Non-Null Count   Dtype 
---  ------                            --------------   ----- 
 0   Totales Territoriales             132300 non-null  object
 1   Comunidades y Ciudades Autónomas  130410 non-null  object
 2   Provincias                        94500 non-null   object
 3   Viajeros y pernoctaciones         132300 non-null  object
 4   Residencia: Nivel 1               132300 non-null  object
 5   Residencia: Nivel 2               88200 non-null   object
 6   Periodo                           132300 non-null  object
 7   Total                             132290 non-null  object
dtypes: object(8)
memory usage: 8.1+ MB


In [20]:
df_2074.describe

<bound method NDFrame.describe of        Totales Territoriales Comunidades y Ciudades Autónomas Provincias  \
0             Total Nacional                              NaN        NaN   
1             Total Nacional                              NaN        NaN   
2             Total Nacional                              NaN        NaN   
3             Total Nacional                              NaN        NaN   
4             Total Nacional                              NaN        NaN   
...                      ...                              ...        ...   
132295        Total Nacional                       19 Melilla        NaN   
132296        Total Nacional                       19 Melilla        NaN   
132297        Total Nacional                       19 Melilla        NaN   
132298        Total Nacional                       19 Melilla        NaN   
132299        Total Nacional                       19 Melilla        NaN   

       Viajeros y pernoctaciones Residencia: Nivel 1 

In [23]:
df_2074.columns

Index(['Totales Territoriales', 'Comunidades y Ciudades Autónomas',
       'Provincias', 'Viajeros y pernoctaciones', 'Residencia: Nivel 1',
       'Residencia: Nivel 2', 'Periodo', 'Total'],
      dtype='object')

## Ver datos únicos por columnas

In [26]:
df_2074['Totales Territoriales'].unique()

array(['Total Nacional'], dtype=object)

In [21]:
df_2074['Comunidades y Ciudades Autónomas'].unique()

array([nan, '01 Andalucía', '02 Aragón', '03 Asturias, Principado de',
       '04 Balears, Illes', '05 Canarias', '06 Cantabria',
       '07 Castilla y León', '08 Castilla - La Mancha', '09 Cataluña',
       '10 Comunitat Valenciana', '11 Extremadura', '12 Galicia',
       '13 Madrid, Comunidad de', '14 Murcia, Región de',
       '15 Navarra, Comunidad Foral de', '16 País Vasco', '17 Rioja, La',
       '18 Ceuta', '19 Melilla'], dtype=object)

In [25]:
df_2074['Provincias'].unique()

array([nan, '04 Almería', '11 Cádiz', '14 Córdoba', '18 Granada',
       '21 Huelva', '23 Jaén', '29 Málaga', '41 Sevilla', '22 Huesca',
       '44 Teruel', '50 Zaragoza', '33 Asturias', '07 Balears, Illes',
       '35 Palmas, Las', '38 Santa Cruz de Tenerife', '39 Cantabria',
       '05 Ávila', '09 Burgos', '24 León', '34 Palencia', '37 Salamanca',
       '40 Segovia', '42 Soria', '47 Valladolid', '49 Zamora',
       '02 Albacete', '13 Ciudad Real', '16 Cuenca', '19 Guadalajara',
       '45 Toledo', '08 Barcelona', '17 Girona', '25 Lleida',
       '43 Tarragona', '03 Alicante/Alacant', '12 Castellón/Castelló',
       '46 Valencia/València', '06 Badajoz', '10 Cáceres', '15 Coruña, A',
       '27 Lugo', '32 Ourense', '36 Pontevedra', '28 Madrid', '30 Murcia',
       '31 Navarra', '01 Araba/Álava', '48 Bizkaia', '20 Gipuzkoa',
       '26 Rioja, La'], dtype=object)

In [27]:
df_2074['Viajeros y pernoctaciones'].unique()

array(['Viajero', 'Pernoctaciones'], dtype=object)

In [None]:
df_2074['Residencia: Nivel 1'].unique()

array(['Total'], dtype=object)

In [29]:
df_2074['Residencia: Nivel 2'].unique()

array([nan, 'Residentes en España', 'Residentes en el Extranjero'],
      dtype=object)

In [30]:
df_2074['Periodo'].unique()

array(['2025M03', '2025M02', '2025M01', '2024M12', '2024M11', '2024M10',
       '2024M09', '2024M08', '2024M07', '2024M06', '2024M05', '2024M04',
       '2024M03', '2024M02', '2024M01', '2023M12', '2023M11', '2023M10',
       '2023M09', '2023M08', '2023M07', '2023M06', '2023M05', '2023M04',
       '2023M03', '2023M02', '2023M01', '2022M12', '2022M11', '2022M10',
       '2022M09', '2022M08', '2022M07', '2022M06', '2022M05', '2022M04',
       '2022M03', '2022M02', '2022M01', '2021M12', '2021M11', '2021M10',
       '2021M09', '2021M08', '2021M07', '2021M06', '2021M05', '2021M04',
       '2021M03', '2021M02', '2021M01', '2020M12', '2020M11', '2020M10',
       '2020M09', '2020M08', '2020M07', '2020M06', '2020M05', '2020M04',
       '2020M03', '2020M02', '2020M01', '2019M12', '2019M11', '2019M10',
       '2019M09', '2019M08', '2019M07', '2019M06', '2019M05', '2019M04',
       '2019M03', '2019M02', '2019M01', '2018M12', '2018M11', '2018M10',
       '2018M09', '2018M08', '2018M07', '2018M06', 

# Afegir columna "Año" i "Mes"

In [54]:
# Asegurarse de que el código para añadir las columnas se aplica a cada DataFrame
for nom_df, df in df_ine.items():
    # Asegurarse de que 'Periodo' es una cadena de texto sin espacios extras
    df['Periodo'] = df['Periodo'].astype(str).str.strip()

    # Filtrar filas con un formato válido de 'Periodo' (ej. '2024M09')
    df = df[df['Periodo'].str.match(r'^\d{4}M\d{2}$')]

    # Verificar si las columnas 'Año' y 'Mes' ya existen, si no, agregarlas
    if 'Año' not in df.columns:
        df['Año'] = df['Periodo'].str[:4].astype(int)
    if 'Mes' not in df.columns:
        df['Mes'] = df['Periodo'].str[5:].astype(int)

    # Verificar que las columnas se añaden correctamente
    print(f"Columnas de {nom_df}: {df.columns}")  # Muestra las columnas del DataFrame
    
    # Verificar los primeros registros para asegurar que los valores de Año y Mes se añadieron correctamente
    print(f"Primeros registros de {nom_df}:")
    print(df[['Periodo', 'Año', 'Mes']].head())  # Muestra las primeras filas de las columnas Periodo, Año y Mes

    # Guardar los cambios de nuevo en el diccionario
    df_ine[nom_df] = df


Columnas de df_2074: Index(['Totales Territoriales', 'Comunidades y Ciudades Autónomas',
       'Provincias', 'Viajeros y pernoctaciones', 'Residencia: Nivel 1',
       'Residencia: Nivel 2', 'Periodo', 'Total', 'Año', 'Mes'],
      dtype='object')
Primeros registros de df_2074:
   Periodo   Año  Mes
0  2025M03  2025    3
1  2025M02  2025    2
2  2025M01  2025    1
3  2024M12  2024   12
4  2024M11  2024   11
Columnas de df_2065: Index(['Totales Territoriales', 'Comunidades y Ciudades Autónomas',
       'Provincias', 'Periodo', 'Total', 'Año', 'Mes'],
      dtype='object')
Primeros registros de df_2065:
   Periodo   Año  Mes
0  2025M03  2025    3
1  2025M02  2025    2
2  2025M01  2025    1
3  2024M12  2024   12
4  2024M11  2024   11
Columnas de df_2038: Index(['RESIDENCIA/ORIGEN', 'Países', 'Viajeros y pernoctaciones', 'Periodo',
       'Total', 'Año', 'Mes'],
      dtype='object')
Primeros registros de df_2038:
   Periodo   Año  Mes
0  2025M03  2025    3
1  2025M02  2025    2
2  2025M0

In [55]:
if 'Año' in df_2074.columns:
    print(df_2074['Año'].unique())
else:
    print("La columna 'Año' no existe.")

[2025 2024 2023 2022 2021 2020 2019 2018 2017 2016 2015 2014 2013 2012
 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999]


In [56]:
if 'Mes' in df_2074.columns:
    print(df_2074['Mes'].unique())
else:
    print("La columna 'Mes' no existe.")

[ 3  2  1 12 11 10  9  8  7  6  5  4]


In [53]:
df_2074['Año'].unique()

array([2025, 2024, 2023, 2022, 2021, 2020, 2019, 2018, 2017, 2016, 2015,
       2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004,
       2003, 2002, 2001, 2000, 1999])

In [60]:
df_2074['Mes'].unique()

array([ 3,  2,  1, 12, 11, 10,  9,  8,  7,  6,  5,  4])

# Exportar csv df_2074

In [65]:
df_2074.to_csv('df_2074_exportado.csv', index=False, encoding='utf-8-sig', sep=';')
