# Curso introducción al análisis de datos con Python

## Trabajo práctico integrador

Para realizar este trabajo prático deberá utilizar la última base guardada de la Parte 1.

La misma cuenta con los siguientes datos:
- **`municipio`:** contiene a todos los municipios de la provincia de Buenos Aires (salvo Lezama).
- **`principal_actividad_económica`:** es una variable categórica que indica cuál es la actividad principal del municipio.
- **`pob_total_2010`:** contiene la población total del año 2010 para cada municipio.
- **`pob_varones_2010`:** contiene la población de varones del año 2010 para cada municipio.
- **`pob_mujeres_2010`:** contiene la población de mujeres del año 2010 para cada municipio.
- **`pob_total_2022`:** contiene la población total del año 2022 para cada municipio.
- **`pob_varones_2022`:** contiene la población de varones del año 2022 para cada municipio.
- **`pob_mujeres_2022`:** contiene la población de mujeres del año 2022 para cada municipio.
- **`participacion_pbg`:** contine la participación de cada municipio en el PBG de la provincia.
- **`participacion_recursos`:** contine la participación de cada municipio en los recursos de la provincia.
- **`participacion_pob_nbi`:** contine la participación de cada municipio en la población total de la provincia con Necesidades Básicas Insatisfechas.
- **`part_varones_sobre_mujeres`:** contiene la participación de la población de varones sobre la de mujeres para el año 2010.



## Parte 2 

**Ejercicio 1:** Importar **todas las librerías** que sean necesarias con los nombres que desee.

In [123]:
# Tratamiento de datos
import pandas as pd
import numpy as np

# Gráficos
import matplotlib.pyplot as plt
from matplotlib import style
from matplotlib import colors
import seaborn as sns

# Preprocesado y modelado
from scipy.stats import pearsonr
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm
from scipy import stats

# Configuración matplotlib
plt.rcParams['image.cmap'] = "bwr"
plt.rcParams['savefig.bbox'] = "tight"
style.use('ggplot') or plt.style.use('ggplot')

# Configuración warnings
import warnings
warnings.filterwarnings('ignore')

**Ejercicio 2:**  Cargar la base de datos que guardaste de la primera parte "municipios_pba" como un dataframe de pandas que se llame `municipios_df` para empezar a trabajar.

In [124]:
#Cargue la base
municipios_df = pd.read_excel("municipios_pba1.xlsx")
type(municipios_df)

pandas.core.frame.DataFrame

In [125]:
#Muestre las primeras observaciones
municipios_df.head(5)

Unnamed: 0.1,Unnamed: 0,municipio,pob_total_2010,pob_varones_2010,pob_mujeres_2010,pob_total_2022,pob_varones_2022,pob_mujeres_2022,principal_actividad_economica,participacion_recursos,participacion_pbg,participacion_pob_nbi,dif_pob,part_varones_sobre_mujeres
0,0,Adolfo Alsina,17222,8514,8708,17532,8545,8987,Agricultura y ganadería,0.001148,0.002207,0.00045,310,0.977722
1,1,Adolfo Gonzales Chaves,12168,5993,6175,11877,5799,6078,Agricultura y ganadería,0.000811,0.001626,0.000282,-291,0.970526
2,2,Alberti,10746,5246,5500,11041,5408,5633,Agricultura y ganadería,0.00092,0.001281,0.000204,295,0.953818
3,3,Almirante Brown,557025,273352,283673,605271,297635,307636,Ind. Manufacturera,0.019132,0.019951,0.042875,48246,0.963617
4,4,Arrecifes,29252,14136,15116,31709,15316,16393,Agricultura y ganadería,0.001729,0.00241,0.001089,2457,0.935168


**Ejercicio 3:**  Suponga que usted es un analista y le solicitan que realice estadística inferencial para poder explicar los recursos disponibles de los municipios. Para eso nos interesa ver la correlación de la participación de los recursos de cada municipio en la provincia de Buenos Aires con la participación del Producto Bruto Geográfico de la PBA. 
Escribir el código para hallar esto:

In [126]:
#pearsonr
# Correlación entre las dos variables
corr_pbg = pearsonr(x = municipios_df['participacion_pbg'], y =  municipios_df['participacion_recursos'])
print("La correlación entre la participación de recursos y el PBG es: ", corr_pbg[0])
print("P-value: ", corr_pbg[1])

#modelo:
modelo = LinearRegression()

La correlación entre la participación de recursos y el PBG es:  0.7842395978812537
P-value:  3.8231418206119576e-29


**Ejercicio 4:** Realizar una regresión usando como variable explicada "participacion_recursos" y como variable explicativa "participacion_pbg", utilizando el 95% de la muestra como "train", y analice cuales son los resultados obtenidos:
- R cuadrado
- Significatividad
- Interpretación de los coeficientes

In [127]:
#values.reshape(-1,1)
#train
#test
X = municipios_df[['participacion_pbg']] 
y = municipios_df['participacion_recursos']

# División de los datos en train y test
X_train, X_test, y_train, y_test = train_test_split(
                                        X.values.reshape(-1,1),
                                        y.values.reshape(-1,1),
                                        train_size   = 0.95,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

In [128]:
#add_constant
#OLS
#fit()
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog = y_train, exog = X_train,)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.614
Model:                            OLS   Adj. R-squared:                  0.611
Method:                 Least Squares   F-statistic:                     198.9
Date:                Tue, 31 Oct 2023   Prob (F-statistic):           1.29e-27
Time:                        03:08:08   Log-Likelihood:                 441.02
No. Observations:                 127   AIC:                            -878.0
Df Residuals:                     125   BIC:                            -872.3
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.0012      0.001      1.490      0.1

**Interpretaciones de la regresión simple:**

Escribir la interpretación del ejercicio 4:

 -Estos resultados sugieren que el modelo de regresión lineal simple es significativo en la predicción de los recursos y que la variable 'participacion_pbg' es altamente significativa en la predicción de los ingresos, con un R-cuadrado de alrededor del 61.4%.
 
 -El valor del estadístico F es 198.9 y la probabilidad es muy baja (1.29e-27), lo que indica que el modelo en su conjunto es significativo.

 -En este caso, 'participacion_pbg' tiene un coeficiente de 0.8378, lo que significa que, en promedio, por cada unidad adicional en 'participacion_pbg', se espera un aumento de 0.8378 unidades en 'participacion_recursos'.

**Ejercicio 5:**  Ahora es interesante agregar otra variable al modelo para ver si ajusta mejor. Se observa en el dataframe que  la variable "participacion_pob_nbi" podria ser relevante para explicar el modelo. 
Realizar la correlación entre la participación de los recursos de cada municipio en la provincia de Buenos Aires y la participación en la población con NBI:
 

In [129]:
#pearsonr
x = municipios_df[['participacion_pbg', 'participacion_pob_nbi']]
y = municipios_df['participacion_recursos']
corr_pob_nbi = pearsonr(x['participacion_pob_nbi'], y)
print("La correlación entre la participación de recursos y el la población con NBI es: ", corr_pob_nbi[0])
print("P-value: ", corr_pob_nbi[1])

La correlación entre la participación de recursos y el la población con NBI es:  0.35189784009662783
P-value:  3.052528166986341e-05


**Ejercicio 6:**  Realizar una regresión multimple con las mismas variables que el ejercicio 4 y agregando la variable explicativa "participacion_pob_nbi". Recuerde utilizar el 95% de la muestra para "train".
Interpretar nuevamente los resultados obtenidos:
- R cuadrado
- Significatividad
- Interpretación de los coeficientes

In [130]:
#train
#test
x = municipios_df[['participacion_pbg', 'participacion_pob_nbi']]
y = municipios_df['participacion_recursos']
X_train, X_test, y_train, y_test = train_test_split(
                                        x,
                                        y.values.reshape(-1,1),
                                        train_size   = 0.95,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

In [131]:
#add_constant
#OLS
#fit()
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train,)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.703
Model:                            OLS   Adj. R-squared:                  0.699
Method:                 Least Squares   F-statistic:                     147.1
Date:                Tue, 31 Oct 2023   Prob (F-statistic):           1.86e-33
Time:                        03:08:14   Log-Likelihood:                 457.74
No. Observations:                 127   AIC:                            -909.5
Df Residuals:                     124   BIC:                            -900.9
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                            coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------------
const                     0.00

**Interpretaciones de la regresión simple:**

Escribir la interpretación del ejercicio 5:

-En este caso, el R-cuadrado es de 0.703, lo que significa que aproximadamente el 70.3% de la variación en 'y' se puede explicar utilizando las variables independientes en el modelo.

-El valor del estadístico F es 147.1 y la probabilidad es muy baja (1.86e-33), lo que indica que el modelo en su conjunto es significativo.

-En este caso, el coeficiente para la constante es 0.0010, lo que es el valor esperado de 'participacion_recursos' cuando todas las variables independientes son cero. El coeficiente para 'participacion_pbg' es 1.1629, lo que significa que, en promedio, un aumento de una unidad en 'participacion_pbg' está asociado con un aumento de 1.1629 unidades en 'participacion_recursos'. El coeficiente para 'participacion_pob_nbi' es -0.2936, lo que significa que un aumento en 'participacion_pob_nbi' está asociado con una disminución de 0.2936 unidades en 'participacion_recursos'.


**Ejercicio 7:** Por último queremos saber si el índice de masculinidad es relevante para explicar el modelo. Para eso primero ealizar la correlación entre la participación de los recursos de cada municipio en la provincia de Buenos Aires y el índice de masculinidad para el año 2010.

In [132]:
#pearsonr
x = municipios_df[['pob_varones_2010']]
y = municipios_df['participacion_recursos']
corr_var2010 = pearsonr(x = municipios_df['pob_varones_2010'], y = municipios_df['participacion_recursos'])

print("La correlación entre la participación de recursos y el índice de masculinidad es: ", corr_var2010[0])
print("P-value: ", corr_var2010[1])

La correlación entre la participación de recursos y el índice de masculinidad es:  0.520242102683155
P-value:  1.1748669891060645e-10


**Ejercicio 8:**  Realizar una regresión múltiple con las mismas variables que el ejercicio 6 y agregando la variable explicativa "part_varones_sobre_mujeres" (índice de masculinidad del municipio). Recuerde utilizar el 95% de la muestra para "train".
Interpretar nuevamente los resultados obtenidos:
- R cuadrado
- Significatividad
- Interpretación de los coeficientes

In [133]:
#train
#test
x = municipios_df[['pob_varones_2010', 'part_varones_sobre_mujeres']]
y = municipios_df['participacion_recursos']
X_train, X_test, y_train, y_test = train_test_split(
                                        x,
                                        y.values.reshape(-1,1),
                                        train_size   = 0.95,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

In [135]:
#add_constant
#OLS
#fit()
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train,)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.313
Model:                            OLS   Adj. R-squared:                  0.302
Method:                 Least Squares   F-statistic:                     28.28
Date:                Tue, 31 Oct 2023   Prob (F-statistic):           7.59e-11
Time:                        03:10:16   Log-Likelihood:                 404.42
No. Observations:                 127   AIC:                            -802.8
Df Residuals:                     124   BIC:                            -794.3
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                                 coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------
const               

**Interpretacion de los datos:**

 -En este caso, el R-cuadrado es de 0.313, lo que significa que aproximadamente el 31.3% de la variación en 'participacion_recursos' se puede explicar utilizando las variables independientes en el modelo. 

-El valor del estadístico F es 28.28 y la probabilidad es muy baja (7.59e-11), lo que indica que el modelo en su conjunto es significativo.

-El coeficiente para 'pob_varones_2010' es 5.391e-08, lo que se puede considerar como un aumento extremadamente pequeño en 'participacion_recursos', pero es practicamente 0. El coeficiente para 'part_varones_sobre_mujeres' es  -0.0479, lo que significa que un aumento en 'part_varones_sobre_mujeres' está asociado con una disminución en 'participacion_recursos'.

**Ejercicio 9:**  A modo de conclusión se pide un análisis de las estadísticas realizadas. ¿Es pertinente agregar la variable de la participación de la poblacion con NBI? ¿Y la variable que mide el índice de masculinidad para el año 2010?

**Analisis:**
 
 -Si es pertinente agregar la participación con NBI ya que indica que un aumento en 'participacion_pob_nbi' está asociado con una disminución de 0.2936 unidades en 'participacion_recursos', y eso es importante.
 
 -La variable que mide el indice de masculinidad en cambio si bien se asocia con un aumento, no es para nada pertinente, ya que al tener un coeficiente de 5.391e-08 se puede decir que es practicamente 0.