
# Jupyter Notebook - Adaptación de Sesión 1.1

Este cuaderno adapta el script de R correspondiente a la "Sesión 1.1" al entorno Python.

## Introducción

La sesión 1.1 tiene como objetivo calcular indicadores regionales como:
- Porcentaje de participación estatal y sectorial.
- Coeficiente de localización.

## Librerías necesarias

In [1]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
from pathlib import Path
import openpyxl
import matplotlib.pyplot as plt
import seaborn as sns


## Cargar los datos

In [3]:
# Cargar archivo Excel
file_path = "/content/Modif base total secre pobocup.xlsx"
data = pd.read_excel(file_path)
print(data.head())

    Año  No_sector                                             Sector  \
0  2018          1  11. Agricultura, ganadería, aprovechamiento fo...   
1  2018          2                                        21. Minería   
2  2018          3  22. Electricidad, agua y suministro de gas por...   
3  2018          4                                   23. Construcción   
4  2018          5                    31-33. Industrias manufacturera   

  Aguascalientes  Baja California  Baja california Sur  Campeche  Coahuila  \
0            135           7230.0               7239.0   10275.0       577   
1           3364            913.0               4061.0   17528.0     17114   
2            NaN              NaN               1752.0       NaN      3306   
3          10798          20840.0              11389.0    5973.0     26645   
4         131910         422816.0              12106.0   17206.0    405912   

  Colima Chiapas  ...  San Luis Potosí  Sinaloa  Sonora  Tabasco  Tamaulipas  \
0   2279   1

## Preprocesamiento de datos

In [5]:
numeric_columns = data.select_dtypes(include=np.number).columns
data[numeric_columns] = data[numeric_columns].fillna(0)

# Convertir columnas específicas a tipo categórico
data['Año'] = data['Año'].astype('category')
data['Sector'] = data['Sector'].astype('category')

# Completar valores NA con ceros
#data.fillna(0, inplace=True)

# Filtrar filas por condiciones específicas
data_est = data[data['No_sector'] != '01']
data_tot_est = data[data['No_sector'] == '01']

# Filtrado para totales sectoriales
data_tot_sect = data[['Año', 'Sector', 'No_sector', 'TOTAL_SECTORIAL']]

In [7]:
data_tot_sect

Unnamed: 0,Año,Sector,No_sector,TOTAL_SECTORIAL
0,2018,"11. Agricultura, ganadería, aprovechamiento fo...",1,226512.0
1,2018,21. Minería,2,190431.2
2,2018,"22. Electricidad, agua y suministro de gas por...",3,202190.7
3,2018,23. Construcción,4,658499.8
4,2018,31-33. Industrias manufacturera,5,6181473.0
5,2018,43. Comercio al por mayor,6,1552742.0
6,2018,46. Comercio al por menor,7,5747606.0
7,2018,"48-49. Transportes, correos y almacenamiento",8,945108.2
8,2018,51. Información en medios masivos,9,356986.9
9,2018,52.Servicios financieros y de seguros,10,653695.1


## Análisis

### Porcentaje de Participación Estatal

In [6]:
# Calcular porcentaje estatal
data_long = pd.melt(data_est, id_vars=['Año', 'Sector', 'No_sector'], var_name='CVE_ENT', value_name='Pers_ocup')
data_long['share_est'] = data_long.groupby(['Año', 'Sector'])['Pers_ocup'].transform(lambda x: round(100 * x / x.sum(), 2))

# Verificar que las participaciones sumen 100
verification = data_long.groupby(['Año', 'Sector'])['share_est'].sum()
print("Verificación de sumas (debería aproximar a 100):")
print(verification.head())

  data_long['share_est'] = data_long.groupby(['Año', 'Sector'])['Pers_ocup'].transform(lambda x: round(100 * x / x.sum(), 2))


TypeError: unsupported operand type(s) for +: 'float' and 'str'


### Guardar Resultados

In [None]:
# Guardar resultados
output_path = Path("Participacion_estatal.csv")
data_long.to_csv(output_path, index=False)
print(f"Archivo guardado en: {output_path}")