# Programa Mujeres en Data Science

Llego la hora de poner de comenzar a explorar el dataset para el proyecto de este curso. El objetivo de esta clase es que comiencen a explorar el dataset. La exploración del dataset permitira que puedan hacerse preguntas que puedan ser contestadas con el mismo.

## Clase 3: Comenzando el proyecto

**Aclaración importante**: Si bien el objetivo de esta notebook es que hagan un analisis exploratorio pensando en ajustar un modelo de machine learning, también es necesario que encaren el analisis exploratorio para observar que información valiosa podría valer la pena mostrar en una página web que les sirva a los usuarios para comprender los datos.

Ejemplos: 

(a) Gráfico mostrando el monto total destinado a cada tipo de obra para cada año reportado.   
(b) Total de dinero invertido para cada tipo de obra para distintas comunas seleccionadas.  


Tener esto en mente les ayudará también a decidir que variables nuevas pueden obtener de las que ya estan para facilitar la visualización posteriormente.

### ANALISIS EXPLORATORIO

Como dijimos en clases anteriores y repasamos en la clase de hoy, una de las primeras cosas que debe realizar un Data Scientist al iniciar un nuevo proyecto es conocer el dataset con el cual va a trabajar. Este paso se conoce como _"Analisis exploratorio de los datos"_. 

Además de obtener que tipo de datos contiene el dataset, estadistica descriptiva, detectar problemas como valores faltantes, establecer que tipo de relación existe entre las distintas variables, también debemos visualizar los datos. Este análisis nos permitira hacernos preguntas que puedan ser contestadas con el dataset como así plantear estrategias para poder resolver problemas presentes en él.

Este notebook solo les indicara algunos pasos que deben seguir pero la idea es que cada grupo pueda explorar y visualizar libremente el dataset.

### 1) Exploración del dataset

In [None]:
# Visualización del tipo de obra por comuna (enfocando a educación y salud)

In [1]:
import pandas as pd 

In [2]:
obras = pd.read_csv('observatorio-de-obras-urbanas.csv', delimiter=',', parse_dates=['fecha_fin_inicial', 'fecha_inicio'])

In [5]:
obras.isnull().sum()

id                              0
entorno                         2
nombre                          0
etapa                           0
tipo                            0
area_responsable                0
descripcion                     5
monto_contrato                103
comuna                          2
barrio                          4
direccion                      64
lat                             2
lng                             2
fecha_inicio                   42
fecha_fin_inicial              22
plazo_meses                    93
porcentaje_avance               2
imagen_1                       36
imagen_2                      431
imagen_3                      621
imagen_4                      757
licitacion_oferta_empresa     130
licitacion_anio               334
contratacion_tipo             791
nro_contratacion              793
cuit_contratista              237
beneficiarios                 802
mano_obra                     740
compromiso                    673
destacada     

In [24]:
obras[obras['comuna'].isnull()][['lng', 'lat']]

Unnamed: 0,lng,lat
940,,
957,-58.370227,-34.602976


In [25]:
obras.loc[obras['id'] == 25303, 'comuna'] = 7

In [26]:
obras.loc[obras['id'] == 25320, 'comuna'] = 1

In [29]:
obras_finalizadas = obras[obras['etapa'] == 'Finalizada']


In [43]:
obras_finalizadas.dropna(subset=['fecha_fin_inicial'], how='all', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [48]:
caminos_villa = [ 4, 7, 8]


In [49]:
obras_con_fecha = obras_finalizadas[pd.notnull(obras_finalizadas['fecha_fin_inicial'])]


In [50]:
print(len(obras_finalizadas))

868


In [51]:
obras_finalizadas['año'] =pd.DatetimeIndex(obras_con_fecha.fecha_fin_inicial).year

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [52]:
obras_con_fecha['en_villa'] = obras_con_fecha['comuna'].isin(caminos_villa)


### 2) Visualización de los datos

Para poder visualizar los datos y la relación entre las distintas variables, podemos usar dos librerias: `matplotlib` y `seaborn`. 

Documentación:
- [matplotlib](https://matplotlib.org/3.1.1/contents.html)
- [seaborn](https://seaborn.pydata.org/)

- Importa la libreria `matplotlib.pyplot` como `plt`
- Importa la libreria seaborn como `sns`

In [None]:
#Importa las librerias matplotlib y seaborn


Abajo se da algunos ejemplos de distintos graficos que se pueden obtener con estas librerias.

In [None]:
from sklearn import datasets

In [None]:
#Obtenemos un dataset de casas en Boston
boston = datasets.load_boston()
columns = boston.feature_names
boston = pd.DataFrame(boston.data)
boston.columns = columns

#### Histogramas:

In [None]:
plt.figure()
plt.hist(boston["AGE"], color="#cf7c17", alpha=0.5)
plt.show()

#### Distplot:

In [None]:
plt.figure()
sns.distplot(boston["AGE"], color="#5ea88e")
plt.show()

#### Boxplot:

In [None]:
plt.figure()
sns.boxplot(x="AGE", data=boston, color="#5ea88e")
plt.show()

#### Scaterplot:

In [None]:
plt.figure()
sns.scatterplot(x="LSTAT", y="PTRATIO",data=boston, color="#5ea88f")
plt.show()

#### Countplot 

Observa como se pueden ajustar la estetica del grafico (Vale para cualquier grafico).

In [None]:
plt.figure(figsize=(5,3))


sns.countplot(x="RAD", data=boston, palette="Set3")


plt.ylabel("Cantidad", size=14)
plt.xlabel("EDAD", size=14)
plt.title("Distribucion de la variable edad", size=16, pad=25)
plt.gca().spines["top"].set_visible(False)
plt.gca().spines["right"].set_visible(False)
plt.grid(False)
plt.show()
plt.show()

**Otros ejemplos de gráficos**: [Ejemplos en Matplotlib](https://matplotlib.org/3.1.0/gallery/index.html) y [Ejemplos en Seaborn](https://seaborn.pydata.org/examples/index.html)

### FEATURE ENGINEEING

Una vez que visualizamos y exploramos el dataset tenemos una idea de como lucen nuestros datos. Es por eso que ahora debemos empezar a preparar nuestros datos para los siguientes pasos según lo que aprendimos de ellos y las preguntas que nos planteamos.

#### IMPUTACION DE VALORES FALTANTES

**_¿Algunas de las variables del dataset presenta valores faltantes?_**

Si es así debemos tomar una decisión acerca de que hacer con ellos. Como manejar estos datos faltantes es un gran desafio.  La mayoría de las veces no queremos eliminar esos valores porque significaría perder información valiosa en otros features.

**¿Que debo preguntarme al manejar datos faltantes?**

- ¿Quiero conservar la información?
- ¿Qué tipo de datos tengo en la columna que voy a imputar?
- ¿Por qué puede ser que tengo los valores faltantes?:
    - Valores faltantes al azar
    - Valores faltantes no al azar
- Si es una variable numerica continua, ¿Que distribución tiene?

**¿Como decido que hago con los valores faltantes?**

- Entender que no hay una manera _perfecta_ de manejar los valores faltantes.

- Depende de mis datos

- Observar no solo la cantidad de datos faltantes sino también su patrón.

- Estrategias:  
     - **Eliminar los valores**:
        - Si la recogida de datos no se ha realizado de forma aleatoria introduce sesgo.  
        - En el caso de que haya mucho patrones con datos faltantes, podría reducir considerablemente la cantidad de filas disponibles. 
     - **Eliminación de la variable (columna)**:
         - Las variables “descartadas” podrían contener información de vital importancia.      
     - **Imputar los valores**:
        - Sustituir por media o mediana: Solo en variables numericas  
        - Sustituir por valor mas frecuente: Util para variables categoricas
        - Algoritmo de ML: K-NN (k-nearest neighboors)

A) Si optan por imputar los datos, pueden hacerlo usando la siguiente función:
    
`sklearn.impute.SimpleImputer(missing_values=nan, strategy=’mean’, fill_value=None, copy=True, add_indicator=False)`
    
- **missing_values**: Indica como son representados los valores faltantes (np.nan es el estandard)
- **strategy**: `mean`, `median`, `most_frequent`, `constant`.
- **fill_value**: Si uso `constant`, puedo usar `fill_value` para indicar por cuál valor debe ser reemplazado
- **copy**: Si pongo True, crea una copia de X
- **add_indicator**: Agrega un indicador para los valores faltantes.


[documentación](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer)

B) Si optan por eliminar los datos, pueden hacerlo usando la siguiente función:
    
`.dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)`

- **axis**: {0, 1}, default 0. 0: Filas, 1: Columnas
- **how**: {'any', 'all'}, default 'any'. Any: Si hay un valor faltante elimina la columna o fila. All: Si todos los valores de la fila o columna son faltantes, elimina la fila o columna.
- **subset**: Nombre de filas o columnas donde buscar valores faltantes
- **inplace**: True modifica el DataFrame original

[documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)

#### DETECCION DE OUTLIERS

- Manera de detectar outliers:
    - z-score
        - Considera que todo valor que se aleje mucho de la media=0 es un outlier.
        - Depende de la media y el desvio estandard para medir la centralidad y dispersión, los cuales son muy afectados por outliers. Si las variables no tiene una distribución normal, termino removiendo muchos outliers del dataset.
        - No funciona bien en dataset muy pequeños.
    - Rango Intercuartil: 
        - Es robusto y no es tan sensible a outliers.

#### DESCUBRIENDO NUEVAS VARIABLES

- Combinar variables ya presentes que puedan capturar efectos dependientes entre ambos y afectar el resultado:
    * Sumando o restando variables
    * Multiplicando o dividiendo variables

## HORA DE TOMAR DECISIONES

Ahora que ya exploraste, procesaste y descubriste relaciones entre las variables creando nuevos atributos, es hora de tomar decisiones. En este proyecto el proximo paso es ajustar un modelo de machine learning. Si bien podemos decidir luego que queremos visualizar algunos de los resultados obtenidos allí, el ajuste del modelo esta pensado para ser independiente de las visualizaciones que aprenderas a hacer en las proximas cuatro clases del curso utilizando `javascript`.

Es por eso, que deben decidir que visualizaciones les gustaría mostrar para que cuando trabajen en las clases de javascript lo hagan en post de un objetivo claro.

Anota acá que relaciones o datos les gustaría mostrar:

### GUARDANDO EL ARCHIVO PARA LOS SIGUIENTES PASOS Y PARA LA VISUALIZACION FINAL

Los siguientes pasos que vamos a tomar implican la transformación de los datos presentes en el dataset para un correcto ajuste de un modelo a elección. Para no tener que correr nuevamente todo el código, podemos guardar en un archivo `csv` el dataset tal cual lo tenemos ahora.

1) **Utiliza la función `.to_csv()` para guardar tu dataset**. Antes de hacerlo chequea la [documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

2) Además, como dijimos anteriormente vamos a visualizar los datos usando javascript en las próximas clases. Para facilitar esta tarea necesitamos generar un archivo `JSON` como output. Afortunadamente, pandas tiene la función **`.to_json()`** que podes chequear la documentación [acá](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html?highlight=to_json#pandas.DataFrame.to_json). 

Porque es muy importante el formato con el cual guarden esta info les vamos a dar los argumentos que deben usar.

- **nombre_del_archivo**: a elección  
- **orient**='records'  
- **force_ascii**=False  