# Proyecto integrador
### Martin Vega

### 1. Una descripción del problema que se busca resolver (la parte del modelado o la presentación del producto final no nos interesa por el momento pero se debe tener claras las intenciones para las cuales se realiza la ingeniería de características)

El problema que se busca resolver con la inversión en educación es determinar si hay una relación entre el aumento de la inversión y el aumento del número de personas que estudian. Esto se puede lograr a través del análisis de datos y el uso de modelos estadísticos para determinar si existe una correlación entre la inversión en educación y el aumento del número de estudiantes. Con esta información, se pueden tomar decisiones informadas sobre la inversión en educación y cómo afecta a la tasa de educación en una comunidad.

### 2. Obtención de la información usando al menos dos fuentes diferentes. Recopilación de la información cruda (raw data) en forma reproducible.

In [1]:
import os
import pandas as pd
pd.options.display.float_format = '${:,.2f}'.format
import numpy as np
# libreria para la descarga de datos
import wget
import zipfile
from datetime import datetime
import json

In [2]:
def documentacionAutomatica(nombreArchivo,descripcion,enlace):
    """ Genera un json

    Generamos un json para la auto documentación de la descarga de datos

    Parameters
    ------------
        nombreArchivo: str
            Nombre del archivo donde se genera la auto documentación
        descripcion: str
            La descripción de las fuentes
        enlace: str
            Descripción (o enlaces) que expliquen la naturaleza de los datos descargados.
    Return
    -----------
        None
    """
    FechaBajada = datetime.today().strftime('%d-%m-%Y %H:%M:%S')

    Dict = {'Fecha de bajada': FechaBajada, 'Descripción': descripcion, 'Enlace':enlace}

    with open(nombreArchivo, 'w', encoding='utf8') as file:
        file.write(json.dumps(Dict, ensure_ascii=False))
print(documentacionAutomatica.__doc__)

 Genera un json

    Generamos un json para la auto documentación de la descarga de datos

    Parameters
    ------------
        nombreArchivo: str
            Nombre del archivo donde se genera la auto documentación
        descripcion: str
            La descripción de las fuentes
        enlace: str
            Descripción (o enlaces) que expliquen la naturaleza de los datos descargados.
    Return
    -----------
        None
    


In [3]:
# Checamos si ya el archivo
if not os.path.exists('./CantidadEstudiantesEduSuperior.csv'):
    # Url de la cantidad de estudiantes por municipios de Sonora y año, descargadas de Data Mexico
    # Link del zip:https://www.inegi.org.mx/programas/accidentes/#Datos_abiertos
    url='https://api.datamexico.org/tesseract/data.csv?State=26&cube=anuies_enrollment&drilldowns=State%2CMunicipality%2CYear&limit=50&locale=es&measures=Students'
    wget.download(url)
    # Renombramos el archivo
    try:
        os.rename("./data.csv", "./CantidadEstudiantesEduSuperior.csv")
    except:
        os.remove("./data.csv")
    descripcionMexico = "Estos datos fueron descargados desde la pagina de Data MExico.\n"
    enlacesMexico = '''Url de la cantidad de estudiantes por municipios de Sonora y año, descargadas de Data Mexico\n
    Link del zip:https://api.datamexico.org/tesseract/data.csv?State=26&cube=anuies_enrollment&drilldowns=State%2CMunicipality%2CYear&limit=50&locale=es&measures=Students"
    '''
    fileNameMexico = "InformeDescargaDataMexicoNumeroEstudiantes.json"
    documentacionAutomatica(fileNameMexico,descripcionMexico,enlacesMexico)

In [4]:
# Checamos si ya el archivo
if not os.path.exists('./PresupuestoEduSonora.csv'):
    # Url del resupuesto aplicado en educacion publica de Sonora, descargadas de Data Mexico
    # Link del zip:https://www.inegi.org.mx/programas/accidentes/#Datos_abiertos
    url='https://api.datamexico.org/tesseract/data.csv?Department=21&State=26&Year=2017%2C2018%2C2019%2C2020%2C2021&cube=budget_transparency&drilldowns=State%2CYear%2CDepartment&limit=50&locale=es&measures=Amount+Executed'
    wget.download(url)
    # Renombramos el archivo
    try:
        os.rename("./data.csv", "./PresupuestoEduSonora.csv")
    except:
        os.remove("./data.csv")
    descripcionMexico = "Estos datos fueron descargados desde la pagina de Data MExico.\n"
    enlacesMexico = '''Url del resupuesto aplicado en educacion publica de Sonora, descargadas de Data Mexico\n
    Link del zip:# https://api.datamexico.org/tesseract/data.csv?Department=21&State=26&Year=2017%2C2018%2C2019%2C2020%2C2021&cube=budget_transparency&drilldowns=State%2CYear%2CDepartment&limit=50&locale=es&measures=Amount+Executed"
    '''
    fileNameMexico = "InformeDescargaDataMexicoNumeroEstudiantes.json"
    documentacionAutomatica(fileNameMexico,descripcionMexico,enlacesMexico)

# Cantidad de estudiantes por municipios de Sonora y año
# https://api.datamexico.org/tesseract/data.csv?State=26&cube=anuies_enrollment&drilldowns=State%2CMunicipality%2CYear&limit=50&locale=es&measures=Students
# Presupuesto aplicado en educacion publica de Sonora
# https://api.datamexico.org/tesseract/data.csv?Department=21&State=26&Year=2017%2C2018%2C2019%2C2020%2C2021&cube=budget_transparency&drilldowns=State%2CYear%2CDepartment&limit=50&locale=es&measures=Amount+Executed

In [5]:
# Data a un DataFrame
df_presupuesto = pd.read_csv("./PresupuestoEduSonora.csv")
df_estudiantes_matriculados = pd.read_csv("./CantidadEstudiantesEduSuperior.csv")

df_presupuesto.head()

Unnamed: 0,State ID,State,Year,Department ID,Department,Amount Executed
0,26,Sonora,2017,21,Educación Pública,"$4,148,071,296.14"
1,26,Sonora,2018,21,Educación Pública,"$4,963,137,875.91"
2,26,Sonora,2019,21,Educación Pública,"$5,382,598,902.32"
3,26,Sonora,2020,21,Educación Pública,"$6,069,537,153.05"
4,26,Sonora,2021,21,Educación Pública,"$6,779,900,503.00"


In [6]:
df_estudiantes_matriculados.head()

Unnamed: 0,State ID,State,Municipality ID,Municipality,Year,Students
0,26,Sonora,26002,Agua Prieta,2017,1431
1,26,Sonora,26002,Agua Prieta,2018,1560
2,26,Sonora,26002,Agua Prieta,2019,1563
3,26,Sonora,26002,Agua Prieta,2020,1679
4,26,Sonora,26002,Agua Prieta,2021,1643


### 3. Limpieza de datos

In [7]:
# Hacemos una copia para no modificar la data original
df_presupuesto_tidy = df_presupuesto.copy()
df_estudiantes_matriculados_tidy = df_estudiantes_matriculados.copy()

In [8]:
# Creamos una columna con la informacion de la inflacion para poder sacar el presupuesto basado en la inflación.
df_presupuesto_tidy["Amount Executed whit inflation 2021"] = [4927965126.63,5620885256.43,5882068944.27,6414849338.70,6779900503.00]

df_presupuesto_tidy.head()

Unnamed: 0,State ID,State,Year,Department ID,Department,Amount Executed,Amount Executed whit inflation 2021
0,26,Sonora,2017,21,Educación Pública,"$4,148,071,296.14","$4,927,965,126.63"
1,26,Sonora,2018,21,Educación Pública,"$4,963,137,875.91","$5,620,885,256.43"
2,26,Sonora,2019,21,Educación Pública,"$5,382,598,902.32","$5,882,068,944.27"
3,26,Sonora,2020,21,Educación Pública,"$6,069,537,153.05","$6,414,849,338.70"
4,26,Sonora,2021,21,Educación Pública,"$6,779,900,503.00","$6,779,900,503.00"


In [9]:

# Seleccionamos la informacion requerida del dataset df_presupuesto_tidy
df_presupuesto_tidy = df_presupuesto_tidy[['Year', 'Amount Executed whit inflation 2021']]
df_presupuesto_tidy['Year'] = pd.to_datetime(df_presupuesto_tidy['Year'], format='%Y')
df_presupuesto_tidy.head()

# Seleccionamos la informacion requerida del dataset df_estudiantes_matriculados_tidy
df_estudiantes_matriculados_tidy['Year'] = pd.to_datetime(df_estudiantes_matriculados_tidy['Year'], format='%Y')
df_estudiantes_matriculados_tidy.head()

# Convinamos nuestros dos df's y convertidos la columna Year a type period
tidyDf = pd.merge(df_presupuesto_tidy.assign(grouper=df_presupuesto_tidy['Year'].dt.to_period('2Y')),
               df_estudiantes_matriculados_tidy.assign(grouper=df_estudiantes_matriculados_tidy['Year'].dt.to_period('2Y')),
               how='left', on='grouper')
tidyDf = tidyDf.drop(columns=["Year_x","Year_y","State","State ID"])
tidyDf.head()

Unnamed: 0,Amount Executed whit inflation 2021,grouper,Municipality ID,Municipality,Students
0,"$4,927,965,126.63",2017,26002,Agua Prieta,1431
1,"$4,927,965,126.63",2017,26003,Álamos,224
2,"$4,927,965,126.63",2017,26012,Bácum,1290
3,"$4,927,965,126.63",2017,26017,Caborca,1800
4,"$4,927,965,126.63",2017,26018,Cajeme,21806


### 4. Análisis exploratorio de datos

In [10]:
# checamos si hay valores faltantes
tidyDf.isna().sum()

Amount Executed whit inflation 2021    0
grouper                                0
Municipality ID                        0
Municipality                           0
Students                               0
dtype: int64

In [11]:
# Checamos el tipo de variables
tidyDf.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   Amount Executed whit inflation 2021  50 non-null     float64       
 1   grouper                              50 non-null     period[2A-DEC]
 2   Municipality ID                      50 non-null     int64         
 3   Municipality                         50 non-null     object        
 4   Students                             50 non-null     int64         
dtypes: float64(1), int64(2), object(1), period[2A-DEC](1)
memory usage: 2.3+ KB


In [12]:
# sacamos estadisticas de los datos
tidyDf.describe()

Unnamed: 0,Amount Executed whit inflation 2021,Municipality ID,Students
count,$50.00,$50.00,$50.00
mean,"$5,925,133,833.81","$26,018.10","$9,185.70"
std,"$648,265,274.91",$9.57,"$17,324.35"
min,"$4,927,965,126.63","$26,002.00",$218.00
25%,"$5,620,885,256.43","$26,012.00",$966.25
50%,"$5,882,068,944.27","$26,018.50","$1,397.00"
75%,"$6,414,849,338.70","$26,026.00","$5,453.00"
max,"$6,779,900,503.00","$26,030.00","$63,543.00"


In [13]:
# Automatic EDA
from pandas_profiling import ProfileReport 

profile = ProfileReport(
    tidyDf, 
    explorative=True,
    title='Reporte de TablaTidy.csv', 
    html={'style':{'full_width':True}}
) 
profile.to_file("TablaTidy-pandas-profiler.html")

#%% Probando Sweetview

import sweetviz

sw_res = sweetviz.analyze(tidyDf)
sw_res.show_html("TablaTidy-sweetview.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

  f = lambda x: regex.split(x, maxsplit=n)
  f = lambda x: regex.split(x, maxsplit=n)


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

                                             |          | [  0%]   00:00 -> (? left)

Report TablaTidy-sweetview.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


#### Cantidad de estudiantes por año

In [14]:
import plotly.express as px

for anio in [2017,2018,2019,2020,2021]:
  fig = px.bar(tidyDf[tidyDf.grouper == str(anio)], x='Municipality', y='Students', color="Municipality", title="Cantidad de estudiantes en el año {}".format(anio))
  fig.show()

In [15]:
tidyDf['Municipality'].value_counts().reset_index().to_csv('df.csv')
ciudades = pd.read_csv("./df.csv")
ciudades = ciudades["index"]
ciudades = ciudades.to_numpy()
print(ciudades)

['Guaymas' 'Caborca' 'Empalme' 'Agua Prieta' 'Cananea' 'Cajeme' 'Álamos'
 'Hermosillo' 'Etchojoa' 'Bácum']


#### Cantidad de estudiantes matriculados por año y ciudad

In [25]:
import plotly.express as px
for ciudad in ciudades:
    sonora_city = tidyDf[tidyDf.Municipality == ciudad]
    fig = px.bar(sonora_city, x=sonora_city.grouper.astype(str), y='Students', color="Students", color_continuous_scale=px.colors.sequential.Blues)
    fig.update_layout(
    title="Cantidad de estudiantes matriculados por año en {}".format(ciudad),
    xaxis_title="Años",
    yaxis_title="Cantidad de estudiantes matriculados",
)
    fig.show()
    #print(sonora_city)

# Presupuesto Anual

In [28]:
import plotly.express as px

fig = px.bar(df_presupuesto_tidy, x='Year', y='Amount Executed whit inflation 2021',title="Presupuesto Anual" ,color='Amount Executed whit inflation 2021',  color_discrete_sequence = px.colors.sequential.Blues)
fig.show()

#### Correlación

In [31]:
import matplotlib.pyplot as plt

plt.matshow(tidyDf.corr())
plt.savefig("mygraph.png")
def histogram_intersection(a, b):
    v = np.minimum(a, b).sum().round(decimals=1)
    return v

In [33]:
tidyDf.corr()

Unnamed: 0,Amount Executed whit inflation 2021,Municipality ID,Students
Amount Executed whit inflation 2021,$1.00,$-0.00,$0.03
Municipality ID,$-0.00,$1.00,$0.44
Students,$0.03,$0.44,$1.00


In [35]:
for ciudad in ciudades:
    print(ciudad)
    sonora_city = tidyDf[tidyDf.Municipality == ciudad]
    print(sonora_city.corr())


Guaymas
                                     Amount Executed whit inflation 2021  \
Amount Executed whit inflation 2021                                $1.00   
Municipality ID                                                     $nan   
Students                                                           $0.72   

                                     Municipality ID  Students  
Amount Executed whit inflation 2021             $nan     $0.72  
Municipality ID                                 $nan      $nan  
Students                                        $nan     $1.00  
Caborca
                                     Amount Executed whit inflation 2021  \
Amount Executed whit inflation 2021                                $1.00   
Municipality ID                                                     $nan   
Students                                                           $0.58   

                                     Municipality ID  Students  
Amount Executed whit inflation 2021             $

In [36]:
for ciudad in ciudades:
    sonora_city = tidyDf[tidyDf.Municipality == ciudad]
    sonora_city["grouper"] = sonora_city['grouper'].astype(str).copy()
    cormat = sonora_city.corr()
    fig = px.imshow(cormat)
    fig.show()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

