# Desarrollo de una Estrategia de Inversión para Sectores y Actividades con Mayor Impacto en el Crecimiento del PIB

## Objetivo del Proyecto
Identificar y cuantificar los sectores y actividades con mayor impacto en el crecimiento del PIB nacional en México, con el fin de formular una estrategia de inversión informada que maximice el crecimiento económico del país.

Este análisis proporcionará insights valiosos para inversionistas y autoridades, orientándolos sobre qué sectores priorizar para impulsar un crecimiento económico sostenible y productivo.

1. **Agricultura**  
   La agricultura es fundamental para el sustento de muchas comunidades en México. Estados como Sinaloa y Jalisco son líderes en la producción de maíz y otros cultivos, mientras que Chiapas destaca en café. Este sector no solo contribuye al PIB, sino que también es vital para la seguridad alimentaria.

2. **Minería**  
   La minería es un sector clave, con estados como Zacatecas y Durango siendo importantes productores de plata y otros minerales. Además, Sonora es conocido por su producción de cobre, un recurso esencial para la industria.

3. **Generación y Distribución de Energía Eléctrica**  
   Este sector es crítico para el desarrollo económico. Veracruz y Tamaulipas son estados con importantes infraestructuras de energía, siendo fundamentales para la generación de electricidad a partir de fuentes renovables y convencionales.

4. **Construcción**  
   La construcción impulsa el desarrollo urbano, y la Ciudad de México, así como el Estado de México, son líderes en proyectos de infraestructura, incluyendo vivienda y obras públicas.

5. **Industria Alimentaria**  
   La industria alimentaria no solo satisface la demanda interna, sino que también exporta productos. Puebla y Jalisco son reconocidos por sus productos procesados, como el tequila y las salsas.

6. **Industria de Bebidas y Tabaco**  
   Estados como Jalisco y Coahuila son importantes en la producción de bebidas alcohólicas, especialmente el tequila. Esta industria genera empleo y es un motor de exportación.

7. **Fabricación de Maquinaria y Equipo**  
   La industria de maquinaria es vital en la manufactura, con Querétaro y Guanajuato como focos de desarrollo. Estas entidades son clave para la producción de maquinaria agrícola y automotriz.

8. **Fabricación de Productos Químicos**  
   La industria química es crucial para el desarrollo industrial, destacando el Estado de México y Veracruz en la producción de productos químicos básicos y especializados.

9. **Comercio al por Mayor**  
   El comercio al por mayor es un pilar del sector terciario. La Ciudad de México es un centro neurálgico, con múltiples mercados y mayoristas que abastecen al país.

10. **Servicios Financieros y de Seguros**  
    Este sector es fundamental para la economía, con la Ciudad de México como centro financiero. Las instituciones bancarias y aseguradoras son esenciales para la inversión y el desarrollo económico.

11. **Transporte y Almacenamiento**    
   Esta actividad es crucial para el comercio y la logística en México, facilitando la movilidad de mercancías y personas. Los estados con mayor actividad en este sector incluyen Veracruz, Estado de México y Nuevo León, donde se concentran puertos, aeropuertos y redes de transporte terrestre.

12. **Servicios de Salud y Asistencia Social**     
   La salud es un pilar fundamental en el bienestar de la población, y su desarrollo impacta directamente en la productividad y calidad de vida. Estados como Jalisco, Ciudad de México y Guanajuato cuentan con una infraestructura de salud bien establecida y en constante crecimiento.

13. **Servicios Educativos**     
   La educación es clave para el desarrollo del capital humano y la innovación. Estados como la Ciudad de México, Nuevo León y Jalisco tienen una alta concentración de instituciones educativas, desde escuelas primarias hasta universidades, contribuyendo a la formación de una fuerza laboral calificada.
14. **Servicios de Alojamiento Temporal**    
   Este sector es fundamental para el turismo, que es una de las principales fuentes de ingresos en México. Estados como Quintana Roo, Ciudad de México y Baja California Sur destacan por su infraestructura hotelera y de servicios turísticos, atrayendo a millones de visitantes cada año.

15. **Servicios de Reparación y Mantenimiento**    
   Este sector contribuye a la sostenibilidad de bienes y equipos, fomentando un consumo más consciente y eficiente. Las ciudades industriales como Monterrey, Tijuana y Guadalajara son centros importantes para este tipo de servicios, beneficiando tanto a empresas como a consumidores.

### Referencias

- Instituto Nacional de Estadística y Geografía (INEGI). (2024). *Cuentas Nacionales de México*. Recuperado de [INEGI](https://www.inegi.org.mx)
- Secretaría de Hacienda y Crédito Público (SHCP). (2024). *Informe sobre la Situación Económica, las Finanzas Públicas y la Deuda Pública*. Recuperado de [SHCP](https://www.gob.mx/shcp)
- Cámara Nacional de la Industria de Transformación (CANACINTRA). (2023). *Informe Anual sobre el Desarrollo Industrial en México*. Recuperado de [CANACINTRA](https://www.canacintra.org.mx)

# Descarga y Selección de los Datos
Inicialmente, los datos descargados cubrían desde el primer trimestre de 1993 hasta el primer trimestre de 2023, proporcionando un conjunto extenso de observaciones trimestrales. Sin embargo, dado el objetivo de estimar el PIB nacional en el contexto de las relaciones económicas actuales, fue necesario acortar el rango de tiempo para enfocarse en las tendencias y patrones más recientes.

Al tomar en cuenta posibles cambios estructurales y económicos ocurridos a lo largo de tres décadas, se decidió utilizar datos únicamente desde el segundo trimestre de 2008 en adelante, abarcando los últimos 15 años de información hasta el dato más actual disponible (primer trimestre de 2023). Esta selección de 60 trimestres permite que el modelo capture de manera más precisa las relaciones actuales entre las actividades económicas y el PIB, al reducir la influencia de eventos económicos ya no representativos, como crisis económicas y cambios de política previos a este periodo.

En resumen, este enfoque asegura que el modelo se ajuste a las condiciones actuales de la economía mexicana, ofreciendo así predicciones más relevantes y precisas.

In [1]:
# Importación de Módulos Necesarios
import moduloPrincipal as mp
import moduloGraficas as mg
# Importación de módulos para regresiones
cm, mlr = mp.importModules()

# Importacion de PIB por Actividad
pibPorActividad = mp.pibPorActividad()
# Acortando el rango de datos a los últimos 15 años
pibPorActividad = pibPorActividad.iloc[:-61,:]

# Importación de PIB por Actividad
pibPorSector = mp.importacionDatos()

Sucessfully imported data: pibByActivity
Sucessfully imported data: PIB_global
Sucessfully imported data: PIB_primarias
Sucessfully imported data: PIB_secundarias
Sucessfully imported data: PIB_terciarias
Data Successfully updated!


# Análisis Descriptivo de los Datos

## Aportación del PIB de cada Sector
En el gráfico de proporciones (donut chart), observamos que los sectores se distribuyen de la siguiente manera: el sector primario representa el 3.4%, el sector secundario un 33.6%, y el sector terciario un 63% del total. Esta distribución resalta la predominancia del sector terciario en la estructura económica, lo que indica un enfoque hacia servicios y actividades relacionadas con la asistencia social, educación y alojamiento temporal.

In [3]:
fig = mg.pibPorSectorProporcion(pibPorSector).update_layout(margin=dict(t=0, b=0),title='', autosize=True, legend=dict(xanchor='center', yanchor='bottom', x=.5, y=-.1, orientation="h"), plot_bgcolor='rgba(0,0,0,0)', paper_bgcolor='rgba(0, 0, 0, 0)').update_legends(font=dict(color='white', size=12)).update_traces(textfont=dict(color='white'))

config = {
    'responsive':True,
    'scrollZoom':False,
    'staticPlot':False,
    'displayModeBar':False
}

nums = {
    '0': '₀',
    '1': '₁',
    '2':'₂',
    '3':'₃',
    '4':'₄',
    '5':'₅',
    '6':'₆',
    '7':'₇',
    '8':'₈',
    '9':'₉'
}

funcNum = lambda x: ''.join([nums[i] for i in str(x)])
Numero = lambda x: 'X' + funcNum(x)

fig

## Rendimientos Esperados Anuales de cada Sector
En el análisis de rendimientos (boxplot), el sector terciario no solo presenta el mayor rendimiento esperado, sino que también muestra una mayor consistencia en sus rendimientos, con una menor dispersión en los datos en comparación con los otros sectores. Esto sugiere que, además de contribuir de manera significativa a la economía, las actividades terciarias ofrecen una rentabilidad más estable y confiable.

In [4]:
mg.boxPlot(pibPorSector).update_layout(height=600)

# Matriz de Correlación

Podemos observar por la matriz de correlación, que existe una relación directa positiva muy fuerte de las variables independientes **"Comercio al por Mayor"**, **"Servicios Financieros y de Seguros"** y **"Transporte y Almacenamiento"** con el **PIB Nacional**, superando el 90% de correlación.

Esto es un claro indicador de que estas variables probablemente vayan a estar en el modelo final para estimar el PIB nacional.

In [5]:
dfAdoc = pibPorActividad.iloc[:,1:]
dfAdoc.columns = ['Y'] + [Numero(i+1) for i in range(len(dfAdoc.columns) - 1)]

In [7]:
fig = cm.correlation_matrix_heatmap(dfAdoc)

fig.update_layout(margin=dict(t=30, b=0, l=0, r=0),title='', autosize=True, plot_bgcolor='rgba(0,0,0,0)', paper_bgcolor='rgba(0, 0, 0, 0)').update_traces(texttemplate='%{z:,.0f}')

config = {
    'responsive':True,
    'scrollZoom':False,
    'staticPlot':False,
    'displayModeBar':False
}

fig.show(config=config)

# Multicolinealidad

Ahora, revisaremos la multicolinealidad de las variables. Si el VIF más grande es mayor o igual a 10, eliminaremos la variable y volveremos a correr el modelo, pero ahora sin esta variable.

Iteraremos hasta que el VIF más grande sea menor a 10.

## Iteración 1

En la primera iteración, como podemos observar, el VIF mayor es de la variable "Transporte y Almacenamiento", además de ser mayor que 10, por lo que esta variable será eliminada.

In [7]:
# Iteración 1
mlr.coef_summary(pibPorActividad.iloc[:,1:], False)

1. PIB Nacional
2. Agricultura
3. Minería
4. Generación, Transmisión y Distribución de Energía Eléctrica
5. Construcción
6. Industria Alimentaria
7. Industria de las Bebidas y del Tabaco
8. Fabricación de Maquinaria y Equipo
9. Fabricación de Productos Químicos
10. Comercio al Por Mayor
11. Servicios Financieros y de Seguros
12. Transporte y Almacenamiento
13. Servicios de Salud y Asistencia Social
14. Servicios Educativos
15. Servicios de Alojamiento Temporal
16. Servicios de Reparación y Mantenimiento


Unnamed: 0,Term,Coef,95% CI,VIF
0,const,942957.44938,-2232516.3761 < b0 < 4118431.2749,1.05076
1,Agricultura,1.472967,0.7509 < b1 < 2.195,4.477251
2,Minería,1.278449,0.2771 < b2 < 2.2798,25.482052
3,"Generación, Transmisión y Distribución de Ener...",4.191431,1.9789 < b3 < 6.4039,4.896581
4,Construcción,1.913055,1.2371 < b4 < 2.5891,5.925695
5,Industria Alimentaria,4.124027,1.018 < b5 < 7.2301,47.472805
6,Industria de las Bebidas y del Tabaco,4.492451,-0.0133 < b6 < 8.9982,15.956483
7,Fabricación de Maquinaria y Equipo,-1.042003,-4.5278 < b7 < 2.4438,3.930162
8,Fabricación de Productos Químicos,-3.756213,-10.3245 < b8 < 2.8121,27.450125
9,Comercio al Por Mayor,0.828449,-0.1319 < b9 < 1.7888,58.941983


## Iteración 2

En esta nueva iteración observamos que el VIF más grande es el de la variable "Servicios Financieros y de Seguros", por lo que esta variable será también eliminada.

In [8]:
# Iteración 2
nuevoDF = pibPorActividad.drop(columns=['Transporte y Almacenamiento'])

mlr.coef_summary(nuevoDF.iloc[:,1:], False)

1. PIB Nacional
2. Agricultura
3. Minería
4. Generación, Transmisión y Distribución de Energía Eléctrica
5. Construcción
6. Industria Alimentaria
7. Industria de las Bebidas y del Tabaco
8. Fabricación de Maquinaria y Equipo
9. Fabricación de Productos Químicos
10. Comercio al Por Mayor
11. Servicios Financieros y de Seguros
12. Servicios de Salud y Asistencia Social
13. Servicios Educativos
14. Servicios de Alojamiento Temporal
15. Servicios de Reparación y Mantenimiento


Unnamed: 0,Term,Coef,95% CI,VIF
0,const,-1219381.0,-5271288.0939 < b0 < 2832526.1159,1.001084
1,Agricultura,1.916982,0.9907 < b1 < 2.8433,4.273191
2,Minería,0.7295655,-0.5614 < b2 < 2.0205,24.55931
3,"Generación, Transmisión y Distribución de Ener...",3.633713,0.7394 < b3 < 6.528,4.859082
4,Construcción,2.673564,1.8563 < b4 < 3.4908,5.021826
5,Industria Alimentaria,4.473955,0.3981 < b5 < 8.5498,47.400189
6,Industria de las Bebidas y del Tabaco,8.419282,2.7796 < b6 < 14.059,14.495853
7,Fabricación de Maquinaria y Equipo,1.948783,-2.421 < b7 < 6.3186,3.581478
8,Fabricación de Productos Químicos,3.246845,-4.7662 < b8 < 11.2599,23.689507
9,Comercio al Por Mayor,2.442702,1.4185 < b9 < 3.4669,38.872111


# Iteración 3

En esta tercera iteración, podemos observar que el VIF más alto es el de la variable "Industria Alimentaria", y sigue siendo mayor que 10, por lo que de nueva cuenta tendremos que correr el modelo, eliminando también ésta variable.

In [9]:
# Iteración 3
nuevoDF = pibPorActividad.drop(columns=['Transporte y Almacenamiento', 'Servicios Financieros y de Seguros'])

mlr.coef_summary(nuevoDF.iloc[:,1:], False)

1. PIB Nacional
2. Agricultura
3. Minería
4. Generación, Transmisión y Distribución de Energía Eléctrica
5. Construcción
6. Industria Alimentaria
7. Industria de las Bebidas y del Tabaco
8. Fabricación de Maquinaria y Equipo
9. Fabricación de Productos Químicos
10. Comercio al Por Mayor
11. Servicios de Salud y Asistencia Social
12. Servicios Educativos
13. Servicios de Alojamiento Temporal
14. Servicios de Reparación y Mantenimiento


Unnamed: 0,Term,Coef,95% CI,VIF
0,const,-1044745.0,-5416755.5335 < b0 < 3327265.5265,1.340494
1,Agricultura,1.444579,0.5075 < b1 < 2.3817,3.752953
2,Minería,0.5154755,-0.8691 < b2 < 1.9,24.243135
3,"Generación, Transmisión y Distribución de Ener...",6.393734,4.0259 < b3 < 8.7615,2.790746
4,Construcción,2.964397,2.1088 < b4 < 3.82,4.724113
5,Industria Alimentaria,7.85806,4.2371 < b5 < 11.479,32.104323
6,Industria de las Bebidas y del Tabaco,5.971782,0.1584 < b6 < 11.7851,13.2179
7,Fabricación de Maquinaria y Equipo,-1.232836,-5.323 < b7 < 2.8573,2.692747
8,Fabricación de Productos Químicos,-0.6794354,-8.8288 < b8 < 7.4699,21.027188
9,Comercio al Por Mayor,3.252784,2.3231 < b9 < 4.1825,27.488678


# Iteración 4

En esta cuarta iteración, podemos observar que el VIF más alto, es el de la variable "Minería", y al ser mayor que 10, tendremos que eliminar la variable del modelo y volverlo a correr.

In [10]:
# Iteración 4
nuevoDF = pibPorActividad.drop(columns=['Transporte y Almacenamiento', 'Servicios Financieros y de Seguros', 'Industria Alimentaria'])

mlr.coef_summary(nuevoDF.iloc[:,1:], False)

1. PIB Nacional
2. Agricultura
3. Minería
4. Generación, Transmisión y Distribución de Energía Eléctrica
5. Construcción
6. Industria de las Bebidas y del Tabaco
7. Fabricación de Maquinaria y Equipo
8. Fabricación de Productos Químicos
9. Comercio al Por Mayor
10. Servicios de Salud y Asistencia Social
11. Servicios Educativos
12. Servicios de Alojamiento Temporal
13. Servicios de Reparación y Mantenimiento


Unnamed: 0,Term,Coef,95% CI,VIF
0,const,3985601.0,-374065.8281 < b0 < 8345267.8612,1.019962
1,Agricultura,1.415613,0.3136 < b1 < 2.5176,3.752192
2,Minería,-0.4108528,-1.9599 < b2 < 1.1382,21.938986
3,"Generación, Transmisión y Distribución de Ener...",4.241264,1.7127 < b3 < 6.7699,2.30106
4,Construcción,2.42509,1.4622 < b4 < 3.388,4.325612
5,Industria de las Bebidas y del Tabaco,1.249717,-5.0902 < b5 < 7.5897,11.366161
6,Fabricación de Maquinaria y Equipo,-0.9231215,-5.7305 < b6 < 3.8843,2.689469
7,Fabricación de Productos Químicos,-6.354125,-15.4316 < b7 < 2.7233,18.862335
8,Comercio al Por Mayor,4.29439,3.3579 < b8 < 5.2308,20.162646
9,Servicios de Salud y Asistencia Social,4.066184,-0.6692 < b9 < 8.8016,6.8503


# Iteración 5
En ésta 5 iteración, nuestro VIF más alto es el de la variable "Comercio al Por Mayor", siendo mayor que 10, por lo que tenemos que eliminar la variable y volver a correr el modelo.

In [11]:
# Iteración 5
nuevoDF = pibPorActividad.drop(columns=['Transporte y Almacenamiento', 'Servicios Financieros y de Seguros', 'Industria Alimentaria', 'Minería'])

mlr.coef_summary(nuevoDF.iloc[:,1:], False)

1. PIB Nacional
2. Agricultura
3. Generación, Transmisión y Distribución de Energía Eléctrica
4. Construcción
5. Industria de las Bebidas y del Tabaco
6. Fabricación de Maquinaria y Equipo
7. Fabricación de Productos Químicos
8. Comercio al Por Mayor
9. Servicios de Salud y Asistencia Social
10. Servicios Educativos
11. Servicios de Alojamiento Temporal
12. Servicios de Reparación y Mantenimiento


Unnamed: 0,Term,Coef,95% CI,VIF
0,const,4065830.0,-248430.6436 < b0 < 8380091.5783,2.775004
1,Agricultura,1.361668,0.2873 < b1 < 2.436,3.624375
2,"Generación, Transmisión y Distribución de Ener...",4.320243,1.8294 < b2 < 6.8111,2.26915
3,Construcción,2.404348,1.4523 < b3 < 3.3564,4.29708
4,Industria de las Bebidas y del Tabaco,2.172879,-3.0837 < b4 < 7.4295,7.940567
5,Fabricación de Maquinaria y Equipo,-1.228505,-5.8585 < b5 < 3.4015,2.535202
6,Fabricación de Productos Químicos,-8.227524,-13.8837 < b6 < -2.5714,7.442293
7,Comercio al Por Mayor,4.305229,3.3772 < b7 < 5.2333,20.124251
8,Servicios de Salud y Asistencia Social,3.910074,-0.7509 < b8 < 8.571,6.744472
9,Servicios Educativos,4.54279,0.841 < b9 < 8.2446,4.575701


# Iteración 6
En esta sexta y última iteración, el VIF más alto es de la variable "Fabricación de Productos Químicos", pero al ser menor que 10, tenemos que ya no hay multicolinealidad entre las variables.

Por lo que podemos seguir a los siguientes pasos tomando en cuenta las variables que nos restan, siendo 10 variables.

In [156]:
# Iteración 6
nuevoDF = pibPorActividad.drop(columns=['Transporte y Almacenamiento', 'Servicios Financieros y de Seguros', 'Industria Alimentaria', 'Minería', 'Comercio al Por Mayor'])

finalSum = mlr.coef_summary(nuevoDF.iloc[:,1:], False)
finalSum

1. PIB Nacional
2. Agricultura
3. Generación, Transmisión y Distribución de Energía Eléctrica
4. Construcción
5. Industria de las Bebidas y del Tabaco
6. Fabricación de Maquinaria y Equipo
7. Fabricación de Productos Químicos
8. Servicios de Salud y Asistencia Social
9. Servicios Educativos
10. Servicios de Alojamiento Temporal
11. Servicios de Reparación y Mantenimiento


Unnamed: 0,Term,Coef,95% CI,VIF
0,const,-3163367.0,-9837427.2603 < b0 < 3510693.9333,1.002765
1,Agricultura,2.961613,1.2736 < b1 < 4.6496,3.250868
2,"Generación, Transmisión y Distribución de Ener...",8.696702,4.8723 < b2 < 12.5211,1.943648
3,Construcción,3.015958,1.4518 < b3 < 4.5801,4.214672
4,Industria de las Bebidas y del Tabaco,14.13715,6.5383 < b4 < 21.736,6.029157
5,Fabricación de Maquinaria y Equipo,9.087982,2.3508 < b5 < 15.8251,1.950344
6,Fabricación de Productos Químicos,-11.30942,-20.6279 < b6 < -1.9909,7.339622
7,Servicios de Salud y Asistencia Social,14.12563,7.3106 < b7 < 20.9406,5.239025
8,Servicios Educativos,10.9183,5.216 < b8 < 16.6206,3.945033
9,Servicios de Alojamiento Temporal,3.768374,0.1852 < b9 < 7.3515,4.226717


# Selección de Modelo Óptimo

Aunque ya no tengamos multicolinealidad, no necesariamente significa que las variables restantes estarán en el modelo final. Lo que haremos ahora es determinar el modelo de regresión lineal con mayor rendimiento. Si llegaran a haber 2 o más modelos prácticamente con el mismo rendimiento, seleccionaríamos el modelo con menor desviación estándar.

# Modelo Óptimo
El valor que representa el rendimiento de nuestro modelo es el R cuadrada ajustado

Los 2 mejores modelos son:
- Modelo de 9 variables (Excluyendo a la variable "Servicios de Reparación y Mantenimiento").
    - Rendimiento (R^2 ajustado): 96.51%
    - Desviación Estándar: 270503.0392
- Modelo de 10 variables.
    - Rendimiento (R^2 ajustado): 96.4433%
    - Desviación Estándar: 273074.7138

Con esto podemos concluir que el mejor modelo es el de 9 variables, debido a que tiene un mayor rendimiento, además de contar con una menor desviación estándar.

Por esta razón, vamos a considerar el modelo de 9 variables que excluye a la variable "Servicios de Reparación y Mantenimiento".

In [230]:
resultadosMejoresModelos = mlr.top_models(nuevoDF.iloc[:,1:], False)
resultadosMejoresModelos

1. PIB Nacional
2. Agricultura
3. Generación, Transmisión y Distribución de Energía Eléctrica
4. Construcción
5. Industria de las Bebidas y del Tabaco
6. Fabricación de Maquinaria y Equipo
7. Fabricación de Productos Químicos
8. Servicios de Salud y Asistencia Social
9. Servicios Educativos
10. Servicios de Alojamiento Temporal
11. Servicios de Reparación y Mantenimiento


Unnamed: 0,Vars,Agricultura,"Generación, Transmisión y Distribución de Energía Eléctrica",Construcción,Industria de las Bebidas y del Tabaco,Fabricación de Maquinaria y Equipo,Fabricación de Productos Químicos,Servicios de Salud y Asistencia Social,Servicios Educativos,Servicios de Alojamiento Temporal,Servicios de Reparación y Mantenimiento,R sq,R sq (adj),S
0,1,,,,X,,,,,,,68.6145,68.0733,818154.4375
1,1,,,,,,X,,,,,56.4381,55.687,963882.4422
2,2,,,,,,X,,,X,,85.1066,84.5841,568517.2155
3,2,,,,X,,,,X,,,83.8695,83.3035,591659.3486
4,3,,,X,X,,,,X,,,90.6083,90.1052,455471.9274
5,3,,,X,X,,X,,,,,90.3428,89.8254,461867.1946
6,4,,,X,X,,,X,X,,,93.5618,93.0936,380526.2708
7,4,,,X,X,,X,,X,,,93.245,92.7537,389777.0194
8,5,,X,X,X,,,X,X,,,95.2483,94.8083,329923.7804
9,5,,,X,X,,X,X,X,,,94.7064,94.2163,348226.9247


# Modelo Escogido

El modelo escogido fue el de 9 variables. En nuestro modelo tenemos las siguientes variables que son equivalentes a las variables de nuestro modelo:

### - Ŷ: PIB Nacional

### - X₁: Agricultura
### - X₂: Generación, Transmisión y Distribución de Energía Eléctrica
### - X₃: Construcción
### - X₄: Industria de las Bebidas y del Tabaco
### - X₅: Fabricación de Maquinaria y Equipo
### - X₆: Fabricación de Productos Químicos
### - X₇: Servicios de Salud y Asistencia Social
### - X₈: Servicios Educativos
### - X₉: Servicios de Alojamiento Temporal

In [8]:
# Modelo Escogido

# Nos quedamos con las 9 variables seleccionadas
nuevoDF = pibPorActividad.drop(columns=['Transporte y Almacenamiento', 'Servicios Financieros y de Seguros', 'Industria Alimentaria', 'Minería', 'Comercio al Por Mayor', 'Servicios de Reparación y Mantenimiento'])

mejorModelo = mlr.mult_reg_model(nuevoDF.iloc[:,1:], False)

1. PIB Nacional
2. Agricultura
3. Generación, Transmisión y Distribución de Energía Eléctrica
4. Construcción
5. Industria de las Bebidas y del Tabaco
6. Fabricación de Maquinaria y Equipo
7. Fabricación de Productos Químicos
8. Servicios de Salud y Asistencia Social
9. Servicios Educativos
10. Servicios de Alojamiento Temporal


### Y el modelo es el siguiente:

In [9]:
print(mejorModelo['model_data']['est_ecuation'])

Ŷ = -3117480.31 +2.99X₁ +8.7X₂ +3.1X₃ +14.52X₄ +8.96X₅ -11.18X₆ +14.11X₇ +10.83X₈ +3.84X₉


# Características del Modelo
Algunas características del modelo que podemos analizar son la variabilidad del modelo y su rendimiento.

In [10]:
print(f"Rendimiento del Modelo (R^2 Ajustada): {mejorModelo['model_data']['r_square_adj']*100:,.2f}%\nVariabilidad del Modelo (R^2): {mejorModelo['model_data']['r_square']*100:,.2f}%")

Rendimiento del Modelo (R^2 Ajustada): 96.51%
Variabilidad del Modelo (R^2): 97.04%


# Prueba de Significancia

La prueba de significancia de la regresión es para determinar si hay relación lineal entre la variable de respuesta (en este caso es el PIB Nacional) y las variables independientes. Las hipótesis correspondientes a ésta hipótesis son:

- H0: b1 = 0 (La regresión no es significativa, al menos una de las variables independientes involucradas no muestran relación).
- H1: b1 != 0 (La regresión es significativa, lo que significa que las variables independientes independientes muestran relación).

Rechazando H0 si:
- EP > Falpha, 1, n-2

Donde EP es nuestro estadístico de prueba, alpha es el nivel de significancia de la prueba, y n es el tamaño de la muestra.

## Conclusiones
En éste caso concluimos que tenemos una regresión significativa, por lo que continuamos con el análisis de la los intervalos de confianza de la constante de nuestro modelo.

In [11]:
# Prueba de Significancia
print(mejorModelo['model_data']['significance_test'])

182.282 > 2.0734, Significant Regression


# ¿Es Necesaria la Regresión al Origen?

En este punto, analizaremos la constante del modelo para determinar si es adecuado forzar el ajuste del modelo a pasar por el origen. La decisión depende de si el intervalo de confianza de la constante incluye el valor cero; de ser así, se podría considerar la posibilidad de eliminar la constante y realizar una regresión sin intercepto.

# Análisis

Al observar los intervalos de confianza de la constante, notamos que incluyen al cero. Esto sugiere una posible regresión al origen. Sin embargo, dado el contexto del modelo y la naturaleza del PIB nacional, no eliminaremos la constante. Es importante considerar que, aunque las variables del modelo expliquen una gran proporción del PIB, no representan la totalidad de los factores que influyen en la economía nacional. Atribuir un valor de cero al PIB cuando todas las variables explicativas son cero no sería realista, ya que implica que no existen otros factores económicos en juego.

Por lo tanto, mantendremos la constante en el modelo para reflejar una relación más completa y precisa entre las variables y el PIB nacional.

In [233]:
regresionOrigen = mlr.coef_summary(nuevoDF.iloc[:,1:], False)
regresionOrigen

1. PIB Nacional
2. Agricultura
3. Generación, Transmisión y Distribución de Energía Eléctrica
4. Construcción
5. Industria de las Bebidas y del Tabaco
6. Fabricación de Maquinaria y Equipo
7. Fabricación de Productos Químicos
8. Servicios de Salud y Asistencia Social
9. Servicios Educativos
10. Servicios de Alojamiento Temporal
11. Servicios de Reparación y Mantenimiento


Unnamed: 0,Term,Coef,95% CI,VIF
0,const,-3163367.0,-9837427.2603 < b0 < 3510693.9333,1.002765
1,Agricultura,2.961613,1.2736 < b1 < 4.6496,3.250868
2,"Generación, Transmisión y Distribución de Ener...",8.696702,4.8723 < b2 < 12.5211,1.943648
3,Construcción,3.015958,1.4518 < b3 < 4.5801,4.214672
4,Industria de las Bebidas y del Tabaco,14.13715,6.5383 < b4 < 21.736,6.029157
5,Fabricación de Maquinaria y Equipo,9.087982,2.3508 < b5 < 15.8251,1.950344
6,Fabricación de Productos Químicos,-11.30942,-20.6279 < b6 < -1.9909,7.339622
7,Servicios de Salud y Asistencia Social,14.12563,7.3106 < b7 < 20.9406,5.239025
8,Servicios Educativos,10.9183,5.216 < b8 < 16.6206,3.945033
9,Servicios de Alojamiento Temporal,3.768374,0.1852 < b9 < 7.3515,4.226717


# Supuestos del Modelo
El siguiente paso es asegurarnos que se cumplen los supuestos de los residuales modelo de tal manera que si se cumplen estos supuestos, podemos asegurarnos de la confiabilidad del modelo.

# 1. Normalidad de los Residuales con Media Cero

Es fundamental asegurar que los residuales del modelo se distribuyen de manera normal y que tienen una media cercana a cero. Existen dos enfoques para verificar este supuesto: el método gráfico y el método analítico. En este proyecto utilizaremos ambos enfoques para tener una confirmación visual y estadística de la normalidad de los residuales.

## Método Gráfico

Para la validación gráfica, utilizaremos el QQ plot (gráfico de cuantiles) y un histograma de los residuales. En el QQ plot, el eje "x" representa los cuantiles teóricos de una distribución normal, mientras que el eje "y" muestra los cuantiles observados de los residuales. Una línea de tendencia se superpone en el gráfico para ayudarnos a visualizar la dispersión de los puntos: cuanto más cerca estén los puntos de la línea, más normal será la distribución de los residuales. Adicionalmente, un histograma de los residuales nos permite evaluar la forma de su distribución y verificar que esté centrada en cero.

### Análisis del Método Gráfico
En el QQ plot, podemos observar que los puntos están alineados en gran medida con la línea de tendencia, lo que indica que los residuales siguen una distribución normal. El histograma de los residuales también muestra una forma aproximadamente simétrica y centrada alrededor de cero. Ambos gráficos respaldan la validez del supuesto de normalidad con media cero para los residuales.

## Método Analítico

Complementariamente, aplicamos la prueba de normalidad Chi-cuadrado. Esta prueba estadística permite verificar si la distribución de los residuales es significativamente diferente de una distribución normal. La hipótesis nula de esta prueba postula que los residuales siguen una distribución normal con media 0, mientras que la hipótesis alternativa indica lo contrario.

### Análisis del Método Analítico
Los resultados de la prueba Chi-cuadrado muestran que no hay evidencia suficiente para rechazar la hipótesis de normalidad con media 0 de los residuales. Esto confirma, de manera analítica, que los residuales provienen de una distribución normal con media cero, validando así uno de los supuestos clave para la confiabilidad del modelo.

In [12]:
# Normalidad Media 0: Método Gráfico para confirmar que los residuales provienen de una distribución Normal

fig = mejorModelo['qqplot'].update_layout(hovermode='x unified', margin=dict(r=20, b=20),autosize=True, plot_bgcolor='#000', paper_bgcolor='#000').update_xaxes(showticklabels=True).update_traces(hoverlabel=dict(bgcolor='#fff'))

config = {
    'responsive':True,
    'scrollZoom':False,
    'staticPlot':False,
    'displayModeBar':False
}

fig.show(config=config)

In [13]:
# Normalidad Media 0: Método Gráfico para confirmar que los residuales provienen de una distribución Normal con media 0

fig = mejorModelo['normal_0_mean_hist'].update_layout(hovermode='x unified').update_layout(margin=dict(r=20, b=20, l=60), autosize=True, plot_bgcolor='#000', paper_bgcolor='#000').update_xaxes(showticklabels=False).update_traces(hoverlabel=dict(bgcolor='#fff'))

fig.show(config=config)

In [21]:
# Normalidad Media 0: Método Analítico para afirmar la hipótesis
print(mejorModelo['normal_0_mean_assumption'])

4.8779 < 11.0705, Residuals come from a Normal distribution with mean 0


# 2. Supuesto de Varianza Constante de los Residuales

Un segundo supuesto crucial en la regresión lineal es la varianza constante de los residuales, también conocida como homocedasticidad. Esto significa que la variabilidad de los errores debe ser constante a lo largo de todos los valores de predicción. Si este supuesto no se cumple (heterocedasticidad), puede indicar que el modelo tiene dificultad para ajustar algunas regiones de los datos, lo cual afectaría la precisión y validez de las predicciones.

## Verificación Gráfica con el Versus Fit Plot

Para evaluar este supuesto, utilizamos el Versus Fit Plot, un gráfico de dispersión en el que el eje "x" representa las respuestas estimadas del modelo, y el eje "y" muestra los residuales. Si los puntos en este gráfico están dispersos de manera aleatoria y no siguen ningún patrón o tendencia, podemos asumir que la varianza de los residuales es constante. En cambio, si los puntos muestran una forma o patrón específico (por ejemplo, en forma de abanico o cono), esto indicaría heterocedasticidad.

### Análisis del Versus Fit Plot
Al observar el Versus Fit Plot, notamos que los puntos se distribuyen de manera uniforme alrededor del eje horizontal sin un patrón discernible. Esto indica que los residuales presentan una varianza constante en todas las estimaciones de nuestro modelo, confirmando que el supuesto de homocedasticidad se cumple.

In [14]:
fig = mejorModelo['versus_fit'].update_layout(hovermode='x unified').update_layout(margin=dict(r=20, b=20), autosize=True, plot_bgcolor='#000', paper_bgcolor='#000').update_xaxes(showticklabels=True).update_traces(hoverlabel=dict(bgcolor='#fff'))

fig.show(config=config)

# 3. Supuesto de Errores No Correlacionados

Para que un modelo de regresión lineal sea válido, los errores o residuales deben ser independientes entre sí. Esto significa que el valor de un error no debe depender del valor de los errores anteriores, es decir, los errores deben estar no correlacionados. Si se presenta correlación, el modelo podría estar dejando patrones sin explicar, afectando la precisión de sus predicciones.

## Método Gráfico: Versus Order Plot

Una forma de validar la no correlación de los errores es mediante el Versus Order Plot. En este gráfico, el eje "x" representa la posición de cada observación en el orden temporal (1, 2, ..., n), y el eje "y" muestra el valor de los residuales. Este gráfico ayuda a identificar si los errores siguen algún patrón en función del tiempo u orden de observación. Si no se observa ningún patrón claro o tendencia en la dispersión de los puntos, podemos asumir que los errores no están correlacionados.

### Análisis Gráfico
Al observar el Versus Order Plot, notamos que no se presenta ningún patrón discernible o tendencia evidente en los residuales a través del tiempo, lo cual sugiere que los errores no están correlacionados. Por esta razón, podemos concluir que el supuesto de no correlación se cumple en base al análisis gráfico.

## Método Analítico: Prueba de Durbin-Watson

Para complementar la validación de este supuesto, utilizamos la prueba de Durbin-Watson, que es una prueba estadística que detecta la presencia de autocorrelación de primer orden en los errores de un modelo de regresión. Esta prueba es útil en contextos donde los errores se registran a intervalos de tiempo regulares y puede confirmar si existe correlación entre errores consecutivos.

### Análisis de la Prueba de Durbin-Watson
En este caso, los resultados de la prueba de Durbin-Watson no fueron concluyentes, por lo cual nos basamos en el análisis visual obtenido del Versus Order Plot. Dado que el gráfico no muestra un patrón de correlación, concluimos que se cumple el supuesto de no correlación en los errores.

In [15]:
fig = mejorModelo['versus_order'].update_layout(hovermode='x unified', margin=dict(r=20, b=20), autosize=True, plot_bgcolor='#000', paper_bgcolor='#000').update_xaxes(showticklabels=True).update_traces(hoverlabel=dict(bgcolor='#fff'))

fig.show(config=config)

In [24]:
print(mejorModelo['incorrel_res_assumption'])

1.29758 < 1.354938851715875 < 1.89393, Inconclusive test.


# Detección de Datos Atípicos

La identificación de datos atípicos es fundamental en el análisis de regresión, ya que estos pueden influir negativamente en el ajuste y en la precisión del modelo. Para abordar esta cuestión, aplicamos un método de residuos estandarizados, que permite evaluar si alguna observación se desvía significativamente del comportamiento general de los datos.

## Descripción del Método

El método de residuos estandarizados consiste en calcular un residuo ajustado para cada observación, tomando en cuenta su influencia en el modelo. De esta manera, podemos detectar observaciones inusuales. En este análisis, una observación se considera atípica si su residuo estandarizado tiene un valor absoluto mayor a 3.

### Proceso de Detección
- Cálculo de Residuos Estandarizados: Se calcula el residuo estandarizado de cada observación.
- Criterio de Detección de Datos Atípicos: Se consideran atípicas aquellas observaciones cuyo residuo estandarizado excede el valor absoluto de 3.

## Análisis y Conclusión

En este caso, el análisis no detectó datos atípicos, lo cual indica que todas las observaciones están dentro de un rango aceptable de variabilidad. Esto significa que no hay valores extremos que puedan distorsionar la interpretación del modelo.

La ausencia de datos atípicos nos permite afirmar que el modelo es estable y confiable, representando de manera adecuada la relación entre las variables sin ser afectado por puntos de datos inusuales.

In [24]:
print(mejorModelo['atypical_data'])

There is not atypical data in the sample


# Conclusión del Modelo

Tras realizar un análisis exhaustivo de nuestro modelo de regresión, evaluamos y verificamos cada uno de los supuestos fundamentales: normalidad de los residuales, varianza constante, independencia de errores y ausencia de datos atípicos. Cada uno de estos pasos contribuyó a confirmar que nuestro modelo cumple con los requisitos estadísticos necesarios para considerarlo robusto y confiable.

La ausencia de patrones o tendencias en los residuales y la confirmación de una varianza constante indican que el modelo captura de manera estable la relación entre las variables. Asimismo, la verificación de errores no correlacionados y la falta de observaciones atípicas refuerzan que el modelo no está distorsionado por influencias externas o inusuales en los datos.

En conjunto, estos resultados validan que nuestro modelo es estadísticamente sólido y adecuado para realizar predicciones confiables, ofreciendo un alto grado de precisión y rendimiento en su aplicación práctica.

# Gráfico de Línea de Valores Reales vs. Valores Estimados

A continuación, mostramos un gráfico de línea que compara los valores reales con los valores estimados del modelo, permitiéndonos evaluar visualmente su precisión. Superponer ambas series facilita la observación de cómo de cerca el modelo sigue las tendencias y variaciones de los datos reales, ofreciendo una visión intuitiva de su efectividad predictiva.

In [16]:
# Data frame con las variables del modelo final
dfFinal = pibPorActividad[nuevoDF.columns]
betas = mejorModelo['model_data']['bi']
estEcuation = mejorModelo['model_data']['est_ecuation']

fig = mg.olsVsRealValues(dfFinal, betas, estEcuation).update_layout(margin=dict(l=20,r=20, b=20, t=50),autosize=True, plot_bgcolor='#000', paper_bgcolor='#000', template='simple_white',title=dict(font=dict(color='white'), text="<b>Modelo PIB Nacional</b>"),hovermode='x unified').update_xaxes(tickfont=dict(color='white'), tickangle=35, dtick=4).update_yaxes(tickfont=dict(color='white')).update_traces(hoverlabel=dict(bgcolor='#fff', font=dict(color='#fff'))).update_legends(font=dict(color='white'))

fig.show(config=config)

# Propuesta de Inversión para el Crecimiento del PIB

A partir del análisis del modelo de regresión lineal, se identificaron las siguientes actividades económicas como prioritarias para la inversión, dado que sus coeficientes son positivos:

- Agricultura
- Generación, Transmisión y Distribución de Energía Eléctrica
- Construcción
- Industria de las Bebidas y del Tabaco
- Fabricación de Maquinaria y Equipo
- Servicios de Salud y Asistencia Social
- Servicios Educativos
- Servicios de Alojamiento Temporal
- Asignación de Inversión

Se propone que el gobierno destine un monto total para estas actividades. La asignación de la inversión se realizará en función de la proporción de cada coeficiente positivo en relación a la suma total de estos coeficientes.

## Conclusión
La inversión estratégica en estas actividades tiene el potencial de impulsar significativamente el crecimiento del PIB nacional, orientando los recursos hacia sectores clave que pueden fomentar un desarrollo económico sostenible y productivo.

In [17]:
mg.donutChartInvRecommendations(betas)

# Hipótesis
Suponiendo que si nos da el gobierno para invertir 15 millones de pesos, y distribuyéndolos de la manera que propusimos, obtenríamos el siguiente PIB

In [18]:
import numpy as np
m10 = 10000000

x = np.array([1, 45000, 130000, 46000, 220000, 130000, 0, 210000, 162000, 57000])

print(f"PIB Nacional Estimado: ${x @ betas['beta']:,.2f}")

PIB Nacional Estimado: $7,587,816.67


# Conclusión del Proyecto

Este proyecto desarrolló un modelo de regresión lineal para estimar el PIB nacional de México a partir de sectores clave, logrando un rendimiento del 96.51%, lo que indica un alto nivel de ajuste y precisión en las predicciones. En este análisis, se seleccionaron las actividades económicas más significativas que impactan el crecimiento del PIB, garantizando la solidez del modelo al eliminar variables redundantes.

Las variables identificadas como fundamentales para el crecimiento económico fueron:
## Sector Primario
- Agricultura

## Sector Secundario
- Generación, Transmisión y Distribución de Energía Eléctrica
- Construcción
- Industria de las Bebidas y del Tabaco
- Fabricación de Maquinaria y Equipo
- Fabricación de Productos Químicos

## Sector Terciario
- Servicios de Salud y Asistencia Social
- Servicios Educativos
- Servicios de Alojamiento Temporal

Estas áreas representan sectores con un impacto positivo significativo en el PIB, y es recomendable que el gobierno priorice su inversión en ellos.

Adoptar un enfoque estratégico en estas actividades no solo orienta las decisiones de inversión, sino que también apoya el desarrollo de políticas económicas más efectivas, capaces de maximizar el crecimiento y mejorar la estabilidad económica del país a largo plazo. Este modelo proporciona una herramienta valiosa para la planificación económica, contribuyendo a un futuro más próspero para México.