In [None]:
import numpy as np
import pandas as pd
import yaml
import seaborn as sns
import matplotlib.pyplot as plt

from src.utils.general import get_db_conn, get_s3_credentials

In [None]:
conn = get_db_conn("../config/local/credentials.yaml")

# Limpieza

**Para ver 200 filas en el notebook**

In [None]:
pd.set_option('display.max_rows', 2000)

**Para ver 10 columnas en el notebook**

In [None]:
pd.set_option('display.max_columns', 10)

**Query para obtener la base de datos**

In [None]:
 # Query
q = """
    select 
        *
    from 
        raw.unidades_economicas_denue
        
    limit 100000 
    
    -- Comentario: limite para solo obtener las primeras 100000 observaciones
"""

In [None]:
# Datos
df = pd.read_sql(q, conn)

## 1. ¿Cuántas variables y observaciones tenemos?

In [None]:
df.shape

In [None]:
# Renglones
df.shape[0]

In [None]:
# Columnas
df.shape[1]

In [None]:
# Nombre de columnas
df.columns

In [None]:
# Las primeras 5 observaciones
df.head(5)

In [None]:
# Las últimas 5 observaciones
df.tail(5)

In [None]:
# Muestra aleatoria de 5 observaciones, con semilla para que sea reproducible.
df.sample(5,random_state=123)

In [None]:
# Muestra aletoria del 10% de las observaciones con semilla para que sea reproducible.
df.sample(frac=0.10, random_state=123)

## 2. Tipos de datos por columna

In [None]:
df.dtypes

### Cambiar tipo de datos

#### Hacer variable de tipo carácter (str)

In [None]:
df['id'] = df['id'].astype('str')

#### Hacer variable de tipo numérica: entero (int) o flotante (float64)

In [None]:
df['id'].astype('int')

In [None]:
df['id'].astype('float64')

In [None]:
# Otra manera de hacer la variable numérica cuando salen errores en las otras funciones
df['num_exterior'] = pd.to_numeric(df['num_exterior'])

#### Hacer variable de tipo temporal

In [None]:
df['date_retrieved'] = pd.to_datetime(df['date_retrieved'])

### 3. Variables categorícas

In [None]:
# Valores únicos por variable. En las variables string aparecerán el número de categorías únicas
df.nunique()

**Si queremos evaluar más a detalle una variable categórica:**

In [None]:
# Categorías en variable
df['sector'].unique()

In [None]:
#  Vemos el número de observaciones por categoría de esta variable
conteos = df['sector'].value_counts()
conteos

In [None]:
# Proporción de categorías
prop = df['sector'].value_counts(normalize=True)
prop

In [None]:
# Lo visualizamos mejor:
pd.concat([conteos,prop], 
          keys=['num','prop'], 
          axis=1)

### 4. Variables numéricas

In [None]:
# Todas las variables que son numéricas las describe con esas características.
df.describe()

### 5. Variables temporales

In [None]:
# Para obtener el mes de la variable que previamente ya habíamos hecho temporal
df['mes']=df['date_retrieved'].dt.month

In [None]:
# Año
df['date_retrieved'].dt.year

### 6. Ver número de NA's por columna

In [None]:
df.isna().sum()

### Algunos trucos extra

Quitar columnas

In [None]:
df.drop(['clee',
         'razon_social',
         'num_interior'], 
        axis=1, # 0 es por filas y 1 por columnas.
        inplace=True # True es para guardar los cambios sobre la misma base. 
       )

#### Seleccionando subconjuntos de la base

`.loc` vs `.iloc`

- `.loc`: utiliza las etiquetas de los índices y de las columnas, es decir el nombre como un string.

- `iloc`: utiliza la posición como entero del dataframe.

Seleccionamos todas las filas (`:`), de las columnas que están desde la posición 0 hasta la 3, y luego las columnas 4, 8, 10.

In [None]:
df.iloc[:,0:3]

In [None]:
df.iloc[:,[0,2,4]]

In [None]:
# Selecciona las filas 2 hasta la 6
df.iloc[2:6,]

In [None]:
# Selecciona filas con los índices 122, 126 y 208:
df.iloc[[122,126,208],]

Seleccionar columnas de acuerdo a las etiquetas de las columnas

In [None]:
df.loc[:,'sector':'rama']

In [None]:
df.loc[:,['localidad','rama','clase']]

In [None]:
df.loc[0:1,]

## Selecionar filas basadas en condiciones

In [None]:
df[(['num_exterior','clase','rama'])].query('5 > num_exterior')

### Para buscar las filas en las que ciertas categorías aparecen (pueden ser tantas categorías como se necesite).

In [None]:
df['tipo_vialidad'].unique()

In [None]:
# seleccionar solo las categorias que tienen corredor y autopista
categories_interes = ['CORREDOR', 'AUTOPISTA']
df[df['tipo_vialidad'].isin(categories_interes)]

In [None]:
df2 = df[df['nombre'].str.contains('FARMA')]

In [None]:
# nueva columna con el index
df2.reset_index().head()

In [None]:
# Hace un drop del index
df2.reset_index(drop=True).head()

In [None]:
# Quita el index sobre la base de datos df2
df2.reset_index(inplace=True)

In [None]:
df2.head()

# Listas y arreglos

Las bases de datos se trabajan generalmente con la paquetería pandas (pd), sin embargo, existe mucha información que está desplegada de otras maneras y para utilizarla necesitas numpy (np) u otras paqueterías, ya cargadas al inicio del notebook. 

- listas
- arreglos

In [None]:
# arreglo de repetir ccd 4 veces.
np.repeat('ccd',4)

In [None]:
# lista de repetir ccd 4 veces
list(np.repeat('ccd',4))

In [None]:
hola = list(np.array([8,2,9,25,4]))
hola

In [None]:
adios = list(np.array([66,9,17,30,5]))
adios

Podemos hacer operaciones con arreglos y con listas, una manera de hacerlo sería con la siguiente.

In [None]:
# Resta
buen_dia = list(map(lambda x,y: x-y, adios, hola))
buen_dia

Para agregar elementos a una lista de manera iterativa. Puede ser como un conjunto de listas, o una lista con todos los elementos:

In [None]:
listas_de_listas = []

In [None]:
# Aquí utilizamos append
for i in range(0,len(buen_dia)):
    listas_de_listas.append(np.repeat(hola[i],buen_dia[i]))

In [None]:
listas_de_listas

In [None]:
lista_de_listas = []

In [None]:
# Aquí utilizamos extend
for i in range(0,len(buen_dia)):
    lista_de_listas.extend(np.repeat(hola[i],buen_dia[i]))

In [None]:
lista_de_listas