<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Importación-de-paquetes" data-toc-modified-id="Importación-de-paquetes-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Importación de paquetes</a></span></li><li><span><a href="#Leemos-los-datos" data-toc-modified-id="Leemos-los-datos-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Leemos los datos</a></span></li><li><span><a href="#Recomendaciones-para-la-exploración-de-datos" data-toc-modified-id="Recomendaciones-para-la-exploración-de-datos-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Recomendaciones para la exploración de datos</a></span><ul class="toc-item"><li><span><a href="#Cómo-está-la-información" data-toc-modified-id="Cómo-está-la-información-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Cómo está la información</a></span></li><li><span><a href="#Valores-de-variables-cualitativas" data-toc-modified-id="Valores-de-variables-cualitativas-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Valores de variables cualitativas</a></span></li><li><span><a href="#Estadísticos-fundamentales" data-toc-modified-id="Estadísticos-fundamentales-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Estadísticos fundamentales</a></span></li><li><span><a href="#Empecemos-con-la-visualización" data-toc-modified-id="Empecemos-con-la-visualización-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Empecemos con la visualización</a></span></li></ul></li><li><span><a href="#Comparar-Variables" data-toc-modified-id="Comparar-Variables-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Comparar Variables</a></span></li><li><span><a href="#También-podemos-hacer-mapas" data-toc-modified-id="También-podemos-hacer-mapas-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>También podemos hacer mapas</a></span></li></ul></div>

# Comenzando una exploración de datos - Parte 1

Una fase fundamental en la ciencia de datos es la exploración, en este proceso se reconocen variables relacionadas, algunas hipótesis empiezan a ser planteadas y se buscan algunas bases auxiliares.

En el ejercicio del día de hoy vamos a iniciar el procesamiento de la base del SECOP II con la intención de brindarles algunas herramientas que puedan llegar a ser de utilidad en procesos posteriores.

## Importación de paquetes

Siempre desde el inicio creamos una celda de importación paquetes. Si bien, más adelante es posible que importemos algo más, dejarlo aquí  permite una buena fluidez de trabajo y además nos facilita la creación de un archivo `.py`.

In [0]:
import numpy                 as np
import pandas                as pd
import matplotlib.pyplot     as plt
import seaborn               as sns
import sklearn.metrics       as Metrics
from scipy import stats

import plotly.express as px
import plotly.graph_objects as go
from ipywidgets import interact
import ipywidgets as widgets

%matplotlib inline
sns.set()

## Leemos los datos
Para este caso descargamos la base y la leemos de manera local, la base debe estar en el mismo directorio del cuaderno para llamarlo directamente.

In [0]:
pd.options.display.float_format = '{:}'.format
df = pd.read_csv('https://raw.githubusercontent.com/madcentral/metodosestadisticos/master/cuadernos/SECOP_muestra.csv')

Utilizaremos una muestra para tener una clase fluida, sin embargo, con un poquito más de procesamiento Python puede procesar esta base de algo más de 700.000 registros.

In [0]:
df.describe()

In [0]:
df=df.reset_index(drop=True)
df=df[df.columns[1:]]

In [0]:
df

In [0]:
import plotly.graph_objects as go
fig = go.Figure(data=go.Bar(y=[2, 3, 1]))
fig.show()

## Recomendaciones para la exploración de datos

1. En este caso es muy importante reconocer que usted no está creando un reporte, pues hasta ahora está conociendo y validando la información que tiene en su base. No tenga miedo de hacer gráficas que posteriormente desechará, pues usted no tiene claridad de donde está la información determinante para sus hpótesis o problemas.

2. Las herramientas visuales son fundamentales, explore las diferentes galerias propuestas por los paquetes para tener una referencia en código de lo que se le ocurre hacer.

    Ver:
    - [Matplotlib](https://matplotlib.org/gallery/index.html)
    - [Seaborn](https://seaborn.pydata.org/examples/index.html)
    - [D3- Python Graph Gallery](https://python-graph-gallery.com/)
    - [From Data To Viz](https://www.data-to-viz.com/)
    - [Plotly Express](https://plotly.com/python/plotly-express/)
    
    
3. En este ejemplo en particular necesitaremnos una base adicional para crear los mapas, identificar la información faltante y buscarla también hace parte de este proceso.

### Cómo está la información

Un primer paso en la exploración consiste en identificar la información a tratar. En este caso calculamos tamaños, buscamos información de las variables y visualizamos la disponibilidad de los datos.

In [0]:
df.shape

In [0]:
df['Orden'].value_counts()

In [0]:
df.Orden

In [0]:
df.dtypes

In [0]:
df.info(null_counts=None,)

Aunque el comando anterior permite contar la cantidad de NAN en cada columna, el siguiente gráfico nos permite visualizar la distribución de dichos datos pérdidos.

In [0]:
df.isnull()

In [0]:
#Análisis de datos pérdidos
fig, axs = plt.subplots(figsize=(20,16))
sns.heatmap(df.isnull(), ax = axs)
axs.set_xticklabels(df.columns, rotation=90);

### Valores de variables cualitativas

Usemos otro gráfico para determinar las categorías de las variables cualitativas:



In [0]:
cualicolumns=df.select_dtypes(exclude=['int64','float64']).columns
print(cualicolumns)
Fechas=[i for i in cualicolumns if i.count('Fecha')>0]
cualicolumns=[i for i in cualicolumns if i.count('Fecha')<=0]

In [0]:
Fechas

In [0]:
len(cualicolumns)

In [0]:
df['EsPostConflicto'].value_counts()

In [0]:
df[cualicolumns]

In [0]:
def distrib(i):
    Freq=df[i].value_counts()
    if len(df[i].unique())<10:
        fig = go.Figure(data=[go.Pie(labels=Freq.index, values=Freq.values,hole=.3,title=i)])
        fig.show()
    else:
        fig = go.Figure(data=[go.Table(
            columnwidth = [500,100,100],
            header=dict(values=['Categoría','Cantidad','Porcentaje'],
                        fill_color='paleturquoise',
                        align='left'),
            cells=dict(values=[Freq.index, Freq.values,["{:.2%}".format(i) for i in Freq.values/len(df)]],
                       fill_color='lavender',
                       align='left'))
                             ])
        fig.show()
    return

interact(distrib,i=widgets.Dropdown(options=cualicolumns,value='Rama',description='Variable: '))

La exploración sobre la anterior herramienta interactiva nos da más luces por cada variable que podría llegar a ser interesante. A continuación areglaremos las fechas de esta base:

Usaremos la información de la variable `Fecha de Inicio del Contrato` veamos que hay solo 8922 valores permitidos.

In [0]:
df[Fechas]

In [0]:
for i in Fechas:
    df[i]=pd.to_datetime(df[i])
df[Fechas].dtypes

In [0]:
df[df['Fecha de Inicio del Contrato']>'2019-01-01']

Ahora una herramienta interactiva que nos permita filtrar la base por fechas, usamos el `datepicker` de ipywidgets:

In [0]:
widgets.DatePicker(
    description='Pick a Date',
    disabled=False
)


In [0]:
s1=widgets.DatePicker(
    description='Inicio: ',
    disabled=False
)

e1=widgets.DatePicker(
    description='Final: ',
    disabled=False
)

def FiltroBase(start,end):
    try:
        start=str(start)
        end=str(end)    
        DF1=df[df['Fecha de Inicio del Contrato']>start]
        DF2=DF1[DF1['Fecha de Inicio del Contrato']<end]
        return DF2
    except:
        print("Ingrese Fechas")
    

interact(FiltroBase,start=s1,end=e1)

Haremos un análisis por mes, tratando de identificar cuales fueron los meses más activos en la asignación de contratos por Departamento:

In [0]:
df['Fecha de Inicio del Contrato']

In [0]:
df['Mes_Año']=df['Fecha de Inicio del Contrato'].dt.to_period('M')
df

Aunque cambiamos el formato de fecha, vale la pena crear una tabla pivote para saber que tenemos por departamento:

In [0]:
DFfechas=df.pivot_table(index='Mes_Año',columns='Rama', values='Ciudad',aggfunc='count')

In [0]:
DFfechas

In [0]:
DFfechas.reset_index(inplace=True)

In [0]:
DFfechas
DFfechas=DFfechas.fillna(0)

Creamos una variable alterna que contenga las Fechas como cadenas de caracteres, para poder gráficar más fácil.

In [0]:
DFfechas['Fecha']=[str(i) for i in DFfechas['Mes_Año']]

In [0]:
DFfechas.columns[1:-1]

In [0]:
DFfechas

In [0]:
fig = px.line(DFfechas, x='Fecha', y=DFfechas.columns[1:-1],
              hover_data={"Fecha": "|%B, %Y"},
              title='Inicios de Contratos')

fig.show()

In [0]:
df['Fecha de Inicio del Contrato']=df['Fecha de Inicio del Contrato'].dt.strftime('%d/%m/%Y')

In [0]:
df[Fechas].dtypes

### Estadísticos fundamentales

Ahora calcularemos algunos estadísticos sencillos, nos encontraremos con problemas en este caso particular por la información que contiene esta base.

In [0]:
estadisticos=df.describe()
estadisticos

Observe los cuantiles de la columna `Valor del Contrato`, es claro que hay una cantidad tremenda de datos atípicos, utilicemos otras médidas estadísticas para reconocer otras características de esta información:

In [0]:
mediarecortada=[]
quantil90=[]
for i in estadisticos.columns:
    mediarecortada.append(stats.trim_mean(df[i],0.1))

estadisticos.loc['med_rec']=mediarecortada
estadisticos.loc['quantil95']=df.quantile(0.95)
estadisticos

Debemos hacer un filtro según la variable `Valor del Contrato`que me permita extraer esos datos que estan afectado las medidas estadísticas que estoy estudiando.

In [0]:
ncontracts=df[df['Valor del Contrato']<215000000]

### Empecemos con la visualización

Ahora vamos a hacer algunas visualizaciones sobre la base, empecemos con la distribución por Sector de la Variable `Valor del Contrato`:

In [0]:
fig, axs = plt.subplots(figsize=(20,16))
axs=sns.boxplot(data=ncontracts,y='Valor del Contrato',x="Sector")
axs.set_xticklabels(axs.get_xticklabels(), rotation=90);

Tenga cuidado porque este gráfico expresa la distribución por Sector de los Valores de Contratos, pero no nos habla del total por sector, veamos:

In [0]:
ncontracts.groupby(by='Sector').sum()

In [0]:
ncontracts.groupby(by='Sector').sum()['Valor del Contrato']

In [0]:
fig, axs = plt.subplots(figsize=(20,16))
axs=sns.barplot(y=df.groupby(by='Sector').size().values,x=df.groupby(by='Sector').size().index)
axs.set_xticklabels(axs.get_xticklabels(), rotation=90);

In [0]:
ncontracts.groupby(by='Sector').sum()['Valor del Contrato']

In [0]:
fig, axs = plt.subplots(figsize=(20,16))
axs=sns.barplot(y=ncontracts.groupby(by='Sector').sum()['Valor del Contrato'].values,x=ncontracts.groupby(by='Sector').sum()['Valor del Contrato'].index)
axs.set_xticklabels(axs.get_xticklabels(), rotation=90);

También lo podemos hacer por Departamento:

In [0]:
def sectorvsdepto(i):
    fbase=ncontracts[ncontracts['Departamento']==i]
    fig, axs = plt.subplots(figsize=(10,5))
    axs=sns.barplot(y=fbase.groupby(by='Sector').sum()['Valor del Contrato'].values,x=fbase.groupby(by='Sector').sum()['Valor del Contrato'].index)
    axs.set_xticklabels(axs.get_xticklabels(), rotation=90);
    plt.show()
    return 
interact(sectorvsdepto,i=ncontracts['Departamento'].unique())

In [0]:
fig, axs = plt.subplots(figsize=(20,16))
axs=sns.boxplot(data=ncontracts,y='Valor del Contrato',x="Departamento")
axs.set_xticklabels(axs.get_xticklabels(), rotation=90);

In [0]:
fig, axs = plt.subplots(figsize=(20,16))
axs=sns.barplot(y=df.groupby(by='Departamento').size().values,x=df.groupby(by='Departamento').size().index)
axs.set_xticklabels(axs.get_xticklabels(), rotation=90);

## Comparar Variables

También podemos contrastar variables, hay varias formas de lograrlo, en este caso una cuantitativa con una cualitativa:

In [0]:
g = sns.displot(
    data=ncontracts, y="Valor del Contrato", hue="Rama", col="Departamento",col_wrap=4)
g.set_titles("{col_name}")
g.set(ylim=(-1e7,1e8))

Escojamos algunas columnas adecuadas:

In [0]:
cuanticolumns=df.select_dtypes(exclude=['object']).columns
cuanticolumns

In [0]:
cuanticolumns=cuanticolumns.drop('Nit Entidad')
cuanticolumns

In [0]:
somecolumns=list(cuanticolumns[[0,4,5,-2,-1]])
somecolumns.append('Rama')

In [0]:
dfcuanti=ncontracts[somecolumns]

In [0]:
g = sns.pairplot(dfcuanti, hue="Rama", palette="Set2", diag_kind="kde", height=2.5)

## También podemos hacer mapas

Pero en este caso necesitamos Dataframe externos:

In [0]:
dfdeptos=ncontracts.groupby(by='Departamento').mean()
dfdeptos

In [0]:
url='https://gist.githubusercontent.com/john-guerra/43c7656821069d00dcbc/raw/3aadedf47badbdac823b00dbe259f6bc6d9e1899/colombia.geo.json'
Colombia_map=geopandas.read_file(url)

In [0]:
Colombia_map

In [0]:
Colombia_map.plot()

In [0]:
import re
from unicodedata import normalize

In [0]:
dfdeptos.index=[normalize("NFKD", i).encode("ascii","ignore").decode("ascii").upper().replace('DISTRITO CAPITAL DE BOGOTA','SANTAFE DE BOGOTA D.C').replace('SAN ANDRES, PROVIDENCIA Y SANTA CATALINA','ARCHIPIELAGO DE SAN ANDRES PROVIDENCIA Y SANTA CATALINA').replace('NARINO','NARIÑO') for i in dfdeptos.index]
dfdeptos

In [0]:
vmc=[]
for i in Colombia_map['NOMBRE_DPT']:
    vmc.append(dfdeptos['Valor del Contrato'][i])
print(vmc)
Colombia_map['Valor promedio']=vmc
Colombia_map

In [0]:
fig, ax = plt.subplots(1, 1,figsize=(20,16))
Colombia_map = Colombia_map.to_crs(epsg=3857)
Colombia_map.plot(column='Valor promedio', ax=ax, legend=True,alpha=0.5)
ctx.add_basemap(ax,zoom=5)
ctx.add_basemap(ax)
ax.set_axis_off()