# Unidad de Area Modificable

En esta práctica vamos a explorar la forma en la agregación delos datos influye en los resultados de un análisis.
Para esto vamos a trabajar con los datos de desaparecidos en la República Mexicana entre 2004 y 2014.

Los datos vienen en dos *shapefiles*, uno a nivel estatal y otro a nivel municipal. Importemos los archivos en **GeoPandas** para analizarlos:

In [5]:
from geopandas import GeoDataFrame
estatal = GeoDataFrame.from_file('data/des_rezago_estado.shp')
municipal = GeoDataFrame.from_file('data/muns_geo_des.shp')

Vamos a ver un poco los datos:

In [17]:
estatal.head()

Unnamed: 0,2006,2007,2008,2009,2010,2011,2012,2013,2014,POB1,analfabeta,cvegeo,ed_basica,estado,geometry,no_escuela,pob_alimen,pob_capaci,pob_patrim,rezago
0,0,25,7,20,18,30,14,15,62,1184996,4.15,1,41.83,Aguascalientes,POLYGON ((-102.2878651817759 22.41649003941765...,4.53,14.9,23.6,51.1,1.14451
1,0,7,25,11,8,19,128,177,381,3155070,3.07,2,38.94,Baja California,(POLYGON ((-115.2104851485454 28.3722493563768...,4.77,1.3,2.3,9.2,0.66364
2,0,0,2,1,3,2,3,8,3,637026,3.6,3,38.92,Baja California Sur,(POLYGON ((-109.8006324469839 24.1492608586424...,4.03,4.7,8.0,23.5,0.48199
3,0,0,5,0,1,0,0,10,59,822441,10.17,4,49.0,Campeche,POLYGON ((-90.37935699678101 20.84832728853007...,5.11,20.0,27.3,51.4,0.32493
4,1,55,102,117,227,258,136,233,103,2748391,3.28,5,38.13,Coahuila de Zaragoza,POLYGON ((-102.3107926469074 29.87694857356086...,3.84,8.6,15.2,41.0,1.25058


Como estos datos tienen 22 columnas, no los podemos ver todos. Vamos a listar las columnas para ver qué datos tenemos:

In [9]:
for c in estatal.columns:
    print c

2006
2007
2008
2009
2010
2011
2012
2013
2014
POB1
analfabeta
cvegeo
ed_basica
estado
geometry
no_escuela
pob_alimen
pob_capaci
pob_patrim
rezago


En las columnas 2006-2014 tenemos los datos de desaparecidos para cada año. En las demás columnos tenemos alguna información sobre las condiciones socioeconómicas de cada unidad espacial:

* analfabeta porcentaje de la población que no sabe ller y escribir
* ed_basica porcentaje de la población que sólo termino la educación básica
* no_escuela porcentaje de los niños en edad escoar que no asisten a la escuela
* pob_alimentaria porcentaje de la población en pobreza alimentaria
* pob_capaci porcentaje de la población en pobreza de capacidades
* pob_patrim porcentaje de la población en pobreza patrimonial
* rezago índice de rezago

Los datos son del CONEVAL a partir del censo de 2010

In [18]:
municipal.head()

Unnamed: 0,2006,2007,2008,2009,2010,2011,2012,2013,2014,POB1,...,cvegeo_x,ed_basica,geometry,no_escuela,nom_estado,nom_mun,pob_alimen,pob_capaci,pob_patrim,rezago
0,0,22,6,19,17,26,11,15,48,797010,...,1001,3.83,POLYGON ((-102.1064122399267 22.06035441303033...,3.19,Aguascalientes,Aguascalientes,12.1,20.4,48.0,-1.63691
1,0,0,0,0,0,0,2,0,1,45492,...,1002,5.49,"POLYGON ((-102.051893439036 22.29143529350413,...",6.75,Aguascalientes,Asientos,19.9,28.9,56.8,-0.95642
2,0,0,0,0,0,0,0,0,4,54136,...,1003,8.93,POLYGON ((-102.6856884472506 22.09962730886253...,8.15,Aguascalientes,Calvillo,24.9,35.2,62.5,-1.12218
3,0,1,0,0,0,0,0,0,0,15042,...,1004,4.18,"POLYGON ((-102.287865181776 22.41649003941679,...",6.71,Aguascalientes,CosÃ­o,14.8,22.6,49.8,-1.07846
4,0,1,0,1,0,3,1,0,4,99590,...,1005,5.69,POLYGON ((-102.3356775711373 22.05066521496391...,5.33,Aguascalientes,JesÃºs MarÃ­a,18.7,28.4,55.8,-1.21094


El primer ejercicio que  vamos a hacer es una regresión lineal del total de desaparecidos (sobre todos los años), contra alguna variable socioeconómica para observar cómo cambia el resultado con la escala de análisis.

El primer paso es crear y calcular una columna con el total de desaparecidos:

In [19]:
des_estado = estatal[['cvegeo','2006','2007','2008','2009','2010','2011','2012','2013','2014']]
des_estado.head()

Unnamed: 0,cvegeo,2006,2007,2008,2009,2010,2011,2012,2013,2014
0,1,0,25,7,20,18,30,14,15,62
1,2,0,7,25,11,8,19,128,177,381
2,3,0,0,2,1,3,2,3,8,3
3,4,0,0,5,0,1,0,0,10,59
4,5,1,55,102,117,227,258,136,233,103


Aquí simplemente seleccionamos las columnas que nos interesan

In [21]:
des_estado['total_des'] = des_estado.sum(axis=1)
des_estado.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':


Unnamed: 0,cvegeo,2006,2007,2008,2009,2010,2011,2012,2013,2014,total_des
0,1,0,25,7,20,18,30,14,15,62,382
1,2,0,7,25,11,8,19,128,177,381,1512
2,3,0,0,2,1,3,2,3,8,3,44
3,4,0,0,5,0,1,0,0,10,59,150
4,5,1,55,102,117,227,258,136,233,103,2464


Y aquí añadimos una nueva columna a nuestra selección con la suma de desaparecidos.

Ahora vamos a unir la suma a nuestros datos originales:

In [22]:
import pandas as pd
estatal = pd.merge(estatal,des_estado[['total_des','cvegeo']],on='cvegeo' )
estatal.head()

Unnamed: 0,2006,2007,2008,2009,2010,2011,2012,2013,2014,POB1,...,cvegeo,ed_basica,estado,geometry,no_escuela,pob_alimen,pob_capaci,pob_patrim,rezago,total_des
0,0,25,7,20,18,30,14,15,62,1184996,...,1,41.83,Aguascalientes,POLYGON ((-102.2878651817759 22.41649003941765...,4.53,14.9,23.6,51.1,1.14451,382
1,0,7,25,11,8,19,128,177,381,3155070,...,2,38.94,Baja California,(POLYGON ((-115.2104851485454 28.3722493563768...,4.77,1.3,2.3,9.2,0.66364,1512
2,0,0,2,1,3,2,3,8,3,637026,...,3,38.92,Baja California Sur,(POLYGON ((-109.8006324469839 24.1492608586424...,4.03,4.7,8.0,23.5,0.48199,44
3,0,0,5,0,1,0,0,10,59,822441,...,4,49.0,Campeche,POLYGON ((-90.37935699678101 20.84832728853007...,5.11,20.0,27.3,51.4,0.32493,150
4,1,55,102,117,227,258,136,233,103,2748391,...,5,38.13,Coahuila de Zaragoza,POLYGON ((-102.3107926469074 29.87694857356086...,3.84,8.6,15.2,41.0,1.25058,2464


Repetimos para los municipios (ahora en un solo paso):

In [23]:
des_mun = municipal[['cvegeo_x','2006','2007','2008','2009','2010','2011','2012','2013','2014']]
des_mun['total_des'] = des_mun.sum(axis=1)
municipal = pd.merge(municipal,des_mun[['total_des','cvegeo_x']],on='cvegeo_x' )
municipal.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  from ipykernel import kernelapp as app


Unnamed: 0,2006,2007,2008,2009,2010,2011,2012,2013,2014,POB1,...,ed_basica,geometry,no_escuela,nom_estado,nom_mun,pob_alimen,pob_capaci,pob_patrim,rezago,total_des
0,0,22,6,19,17,26,11,15,48,797010,...,3.83,POLYGON ((-102.1064122399267 22.06035441303033...,3.19,Aguascalientes,Aguascalientes,12.1,20.4,48.0,-1.63691,164
1,0,0,0,0,0,0,2,0,1,45492,...,5.49,"POLYGON ((-102.051893439036 22.29143529350413,...",6.75,Aguascalientes,Asientos,19.9,28.9,56.8,-0.95642,3
2,0,0,0,0,0,0,0,0,4,54136,...,8.93,POLYGON ((-102.6856884472506 22.09962730886253...,8.15,Aguascalientes,Calvillo,24.9,35.2,62.5,-1.12218,4
3,0,1,0,0,0,0,0,0,0,15042,...,4.18,"POLYGON ((-102.287865181776 22.41649003941679,...",6.71,Aguascalientes,CosÃ­o,14.8,22.6,49.8,-1.07846,1
4,0,1,0,1,0,3,1,0,4,99590,...,5.69,POLYGON ((-102.3356775711373 22.05066521496391...,5.33,Aguascalientes,JesÃºs MarÃ­a,18.7,28.4,55.8,-1.21094,10


Para empezar, podemos pensar que la cantidad de desaparecidos puede estar correlacionada con la cantidad de habitantes. Probemos modelar esto a nivel estatal con una regresión lineal simple:

In [24]:
from pandas.stats.api import ols
model = ols(y=estatal['total_des'], x=estatal['POB1'])
model

  exec(code_obj, self.user_global_ns, self.user_ns)



-------------------------Summary of Regression Analysis-------------------------

Formula: Y ~ <x> + <intercept>

Number of Observations:         32
Number of Degrees of Freedom:   2

R-squared:         0.0921
Adj R-squared:     0.0618

Rmse:           1885.0746

F-stat (1, 30):     3.0432, p-value:     0.0913

Degrees of Freedom: model 1, resid 30

-----------------------Summary of Estimated Coefficients------------------------
      Variable       Coef    Std Err     t-stat    p-value    CI 2.5%   CI 97.5%
--------------------------------------------------------------------------------
             x     0.0002     0.0001       1.74     0.0913    -0.0000     0.0004
     intercept   657.4206   519.5920       1.27     0.2155  -360.9796  1675.8208
---------------------------------End of Summary---------------------------------

Lo primero que hicimos fue importar el paquete que contiene los modelos estadísticos. Luego utilizamos un _Ordinary Least Squares_ para hacer nuestra regresión lineal.

Examinando los resultados, lo primero que podemos ver es que la población explica muy poco la cantidad de desaparecidos y, además, no es significativa.

¿Sucederá lo mismo a nivel municipal?

In [25]:
model = ols(y=municipal['total_des'], x=municipal['POB1'])
model


-------------------------Summary of Regression Analysis-------------------------

Formula: Y ~ <x> + <intercept>

Number of Observations:         2454
Number of Degrees of Freedom:   2

R-squared:         0.3599
Adj R-squared:     0.3597

Rmse:             41.3218

F-stat (1, 2452):  1378.8238, p-value:     0.0000

Degrees of Freedom: model 1, resid 2452

-----------------------Summary of Estimated Coefficients------------------------
      Variable       Coef    Std Err     t-stat    p-value    CI 2.5%   CI 97.5%
--------------------------------------------------------------------------------
             x     0.0002     0.0000      37.13     0.0000     0.0002     0.0002
     intercept    -1.8531     0.8823      -2.10     0.0358    -3.5824    -0.1239
---------------------------------End of Summary---------------------------------

Como pueden ver, a nivel municipal, la población explica un porcentaje mucho más grande de la varianza del total de desaparecidos ¿por qué?

### Ejercicio:
Hagan varias regresiones, usando diferentes variables que crean que pueden explicar la cantidad de desaparecidos. Comparen los resultados a nivel estatal y municipal 

También podemos hacer regresiones multivariadas. Por ejemplo, intentemos modelar la cantidad de desaparecidos a partir de la población y del rezago:

In [28]:
import statsmodels.formula.api as sm
model = sm.ols(formula="total_des ~ POB1 + rezago",data=estatal).fit()
print model.summary()

                            OLS Regression Results                            
Dep. Variable:              total_des   R-squared:                       0.094
Model:                            OLS   Adj. R-squared:                  0.031
Method:                 Least Squares   F-statistic:                     1.503
Date:                Tue, 22 Mar 2016   Prob (F-statistic):              0.239
Time:                        19:32:40   Log-Likelihood:                -285.68
No. Observations:                  32   AIC:                             577.4
Df Residuals:                      29   BIC:                             581.7
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept    729.8617    606.539      1.203      0.2

In [29]:
import statsmodels.formula.api as sm
model = sm.ols(formula="total_des ~ POB1 + rezago",data=municipal).fit()
print model.summary()

                            OLS Regression Results                            
Dep. Variable:              total_des   R-squared:                       0.361
Model:                            OLS   Adj. R-squared:                  0.360
Method:                 Least Squares   F-statistic:                     691.8
Date:                Tue, 22 Mar 2016   Prob (F-statistic):          6.31e-239
Time:                        19:34:07   Log-Likelihood:                -12612.
No. Observations:                2454   AIC:                         2.523e+04
Df Residuals:                    2451   BIC:                         2.525e+04
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept     -1.6916      0.886     -1.909      0.0