<a href="https://colab.research.google.com/github/auzaluis/upsa_mod_202402/blob/main/personalidad/01-script-ETL-personalidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Tema 01: Carga de datos**

### **Importando base de datos**

In [None]:
# Google Auth
from google.colab import auth
auth.authenticate_user()

In [None]:
# API Client
from google.auth import default
creds, _ = default()

In [None]:
# gspread authorization
import gspread
gc = gspread.authorize(creds)

In [None]:
# Accediendo al Google Sheet
url_personalidad = "https://docs.google.com/spreadsheets/d/1IQ_RxxTSmBKHTExlxboIRNlMov_F6RyqdcOPrflCv_w/edit?usp=sharing"
gsheets = gc.open_by_url(url_personalidad)
sheets = gsheets.worksheet("Respuestas de formulario 1").get_all_values()

In [None]:
type(sheets)

In [None]:
# Convirtiendo la lista en df
import pandas as pd
df = pd.DataFrame(sheets[1:], columns=sheets[0])

### **Inspección data frame**

In [None]:
type(df)

In [None]:
# Ver cantidad de filas y columnas
df.shape

In [None]:
# Ver primeras filas
df.head()

In [None]:
# Ver info general y nombre de columas
df.info()

In [None]:
# Tipo de datos
df['Sexo'].dtype

In [None]:
# Número de filas
len(df)

In [None]:
# Número de columnas
len(df.columns)

### **Tema 02: Transformación de datos**

### **Valores perdidos**

#### **Identificación de los NAs**

In [None]:
# Los NAs están strings vacíos
import numpy as np
df.replace("", np.nan, inplace=True)

In [None]:
df['Escribe tu edad exacta'].isna().value_counts()

#### **Tratando de los NAs**

In [None]:
df["Escribe tu edad exacta"].dtype

In [None]:
df["Escribe tu edad exacta"] = pd.to_numeric(df["Escribe tu edad exacta"], errors="coerce")

In [None]:
df["Escribe tu edad exacta"].dtype

In [None]:
df["Escribe tu edad exacta"].mean()

In [None]:
edad_promedio = df["Escribe tu edad exacta"].mean()

##### **Reemplazo por la media**

In [None]:
# Creando df2
df2 = df.copy()

In [None]:
# Reemplazo por la media
df2["edad2"] = df2["Escribe tu edad exacta"].fillna(edad_promedio)

In [None]:
df2[["Escribe tu edad exacta", "edad2"]]

**Reubicando edad2**

In [None]:
# Crear una lista con los nombres de las columnas
lista_columnas = list(df2.columns)

In [None]:
# Quitando temporalmente edad2 de la lista
lista_columnas.remove("edad2")

In [None]:
# Obteniendo el índice (posición) de la columna "after"
lista_columnas.index("Escribe tu edad exacta")

In [None]:
# Insertando "edad2" después de "Escribe tu edad exacta"
lista_columnas.insert(lista_columnas.index("Escribe tu edad exacta") + 1, "edad2")

In [None]:
# Reordenando y guardando en df2
df2 = df2[lista_columnas]

In [None]:
df2.head()

**Creando relocate() en python**

In [None]:
def relocate(df, columna, after):
  lista_columnas = list(df.columns)
  lista_columnas.remove(columna)
  lista_columnas.insert(lista_columnas.index(after) + 1, columna)
  return df[lista_columnas]

In [None]:
relocate(
    df = df2,
    columna = "edad2",
    after = "Escribe tu edad exacta"
)

##### **Eliminar la fila completa**

In [None]:
df2.shape

In [None]:
df2 = df2.dropna()

In [None]:
df2.shape

### **Estandarización de variables**

#### **Normalización**

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# instanciando StandardScaler()
normalizador = StandardScaler()

In [None]:
# normalizando
normalizador.fit_transform(df2[["edad2"]])

In [None]:
# creando df3
df3 = df2.copy()

In [None]:
df3["edadZ"] = normalizador.fit_transform(df3[["edad2"]])

In [None]:
# reubicando edadZ despues de edad2
df3 = relocate(
    df = df3,
    columna = "edadZ",
    after = "edad2"
)

In [None]:
df3[["edad2", "edadZ"]]

#### **Rango**

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
# instanciando MinMaxScaler()
rango = MinMaxScaler()

In [None]:
# convirtiendo a rango
df3["edadRango"] = rango.fit_transform(df3[["edad2"]])

In [None]:
df3 = relocate(
    df = df3,
    columna = "edadRango",
    after = "edadZ"
)

In [None]:
df3[["edad2", "edadRango"]]

### **Agrupaciones**

#### **Numéricas**

In [None]:
cortes = [-float('inf'), 18, 21, float('inf')]
etiquetas = ["18 o menos", "19 a 21", "Más de 21"]

In [None]:
df3['edadGR'] = pd.cut(
    x = df3['edad2'],
    bins = cortes,
    labels = etiquetas
)

In [None]:
df3 = relocate(
    df = df3,
    columna = "edadGR",
    after = "edad2"
)

In [None]:
# frecuencias de edadGR
df3['edadGR'].value_counts()

#### **Categóricas**

In [None]:
# Índices
df3.info()

In [None]:
# Valores únicos
pd.unique(df3.iloc[:,8])

In [None]:
# Frecuencias
df3.iloc[:,8].value_counts()

In [None]:
df3.iloc[:,8].isin(['Totalmente verdadero', 'Un poco verdadero'])

Dummitización

In [None]:
# Función condicional normal
def top2box(x):
  if x == "Un poco verdadero" or x == "Totalmente verdadero":
    return 1
  else:
    return 0

In [None]:
# aplicando la función
df3.iloc[:,8].apply(top2box).value_counts()

In [None]:
# función lambda
df3.iloc[:,8].apply(lambda x: 1 if x == "Un poco verdadero" or x == "Totalmente verdadero" else 0)

In [None]:
# frecuencias
df3.iloc[:,8].apply(lambda x: 1 if x == "Un poco verdadero" or x == "Totalmente verdadero" else 0).value_counts()

In [None]:
df3.iloc[:,8].apply(lambda x: 1 if x in ["Un poco verdadero", "Totalmente verdadero"] else 0).value_counts()

#### **Ordinales**

In [None]:
import numpy as np

In [None]:
# niveles
pd.unique(df3.iloc[:,8])

In [None]:
# Cuando las condiciones son muchas (5 en este caso), es mejor usar select()
condiciones = [
    df3.iloc[:,8] == "Totalmente falso",
    df3.iloc[:,8] == "Un poco falso",
    df3.iloc[:,8] == "No lo sé",
    df3.iloc[:,8] == "Un poco verdadero",
    df3.iloc[:,8] == "Totalmente verdadero"
]

# Hacer coincidir el orden
opciones = [1,2,3,4,5]

In [None]:
# usando select
ordinal = np.select(
    condlist = condiciones,
    choicelist = opciones,
    default = np.nan
)

In [None]:
ordinal

In [None]:
# no confundir return_counts de numpy con value_counts de pandas
np.unique(ordinal, return_counts = True)

In [None]:
# para aplicar value_counts() primero se debe convertir a pd.Series
pd.Series(ordinal).value_counts()

#### **Bucles**

Forma convencional / standard

In [None]:
# creando df4
df4 = df3.copy()

In [None]:
df4.columns

In [None]:
# crear una lista vacía
frases = []

In [None]:
# se ejecuta un blucle para llenar la lista
for col in df4.columns:
  if col.startswith("Según tu"):
    frases.append(col)

In [None]:
frases

In [None]:
# aplicando el bucle para dummitizar, recordemos que creamos la función top2box
for frase in frases:
  df4[frase] = df4[frase].apply(top2box)

In [None]:
df4[frases]

In [None]:
df4.iloc[:,8].value_counts()

Forma Pythonica

In [None]:
# creando df5
df5 = df3.copy()

In [None]:
# lista vacía
frases = []

In [None]:
# usando comprehension list
frases = [col for col in df5.columns if col.startswith("Según tu")]

In [None]:
frases

In [None]:
# aplicando el bucle para dummitizar, esta vez con lambda, como si la función top2box no existiera
for frase in frases:
  df5[frase] = df5[frase].apply(lambda x: 1 if x in ["Un poco verdadero", "Totalmente verdadero"] else 0)

In [None]:
df5[frases]

In [None]:
df5[frases] == df4[frases]

### **Tema 03: Manipulación de datos**

#### **Selección de columnas**

In [None]:
df5['Sexo']

In [None]:
df5[['Sexo']]

In [None]:
# dobles corchetes obligatorios para seleccionar más de una col
df5[['Sexo', 'Escribe tu edad exacta']]

In [None]:
# eliminar una columna
df5.drop(columns='Marca temporal')

In [None]:
# seleccionar las cols que comienzan con...
df5[[col for col in df5.columns if col.startswith("¿Cuánto")]]

In [None]:
# seleccionar las cols que terminan con...
df5[[col for col in df5.columns if col.endswith("]")]]

In [None]:
# contains
df5.filter(like='edad', axis=1)

#### **Selección de filas**

In [None]:
# Seleccionar filas cuando Sexo = 'Mujer'
df5[df5['Sexo'] == 'Mujer'].head(3)

In [None]:
# Omitir filas cuando Sexo no es igual "Hombre"
df5[df5['Sexo'] != 'Hombre'].head(3)

In [None]:
# Seleccionar filas cuando edad2 es mayor o igual a 20
df5[df5['edad2'] >= 20].head(3)

In [None]:
# Seleccinar filas cuando edad2 está entre 18 y 21
df5[(df5['edad2'] >= 18) & (df5['edad2'] <= 21)].head(3)

In [None]:
# Seleccinar filas cuando edad2 está entre 18 y 21
# Seleccionar filas cuando Sexo = 'Mujer'
df5[
    (df5['edad2'] >= 18) &
    (df5['edad2'] <= 21) &
    (df5['Sexo'] == 'Mujer')
].head(3)

#### **Renombrando columnas**

In [None]:
df6 = df5.copy()

**APPs**

In [None]:
df6.columns

**Paso 1:** Creamos una lista con los nuevos nombres

In [None]:
apps = ["TikTok", "Instagram", "Facebook", "YouTube"]

**Paso 2:** Crear un dict que contenga los nombres antiguos como keys y los nuevos como values

In [None]:
# zip() crea tuplas (nombre antiguo, nombre nuevo)
# dict() almacena la tupla en un diccionario
apps_dict = dict(zip(
 [col for col in df6.columns if col.startswith("¿Cuánto")],
 apps
))

**Paso 3:** Renombrando

In [None]:
df6.rename(apps_dict, axis=1, inplace=True)

In [None]:
df6.info()

**Frases**

**Paso 0:** Convertir la lista a Pandas Series

In [123]:
frases2 = pd.Series(frases)

**Paso 1:** Crear una lista con los nuevos nombres

In [124]:
frases2 = frases2.str.extract('\\[(.+)\\]')[0]

In [None]:
frases2

**Paso 2:** Crear un dict que contenga los nombres antiguos como keys y los nuevos como values

In [127]:
frases_dict = dict(zip(frases, frases2))

In [None]:
frases_dict

**Paso 3:** Renombrando

In [129]:
df6.rename(frases_dict, axis=1, inplace=True)

In [None]:
df6.info()

#### **Pivotado**

Pivot Longer

In [133]:
apps

['TikTok', 'Instagram', 'Facebook', 'YouTube']

In [134]:
df7 = df6.melt(
    # identificadores
    id_vars = ['Marca temporal', 'Sexo', 'edad2'],
    value_vars = apps,
    var_name = 'app',
    value_name = 'time'
)

In [135]:
df7.head()

Unnamed: 0,Marca temporal,Sexo,edad2,app,time
0,9/08/2021 12:23:46,Hombre,16.0,TikTok,0:00:00
1,9/08/2021 12:25:01,Mujer,16.0,TikTok,0:50:00
2,9/08/2021 12:26:31,Hombre,17.0,TikTok,8:00:00
3,9/08/2021 12:28:49,Mujer,22.0,TikTok,22:35:00
4,9/08/2021 12:31:43,Hombre,16.0,TikTok,7:00:00


Pivot Wider

In [136]:
df8 = df7.pivot(
    index = ['Marca temporal', 'Sexo', 'edad2'],
    columns = 'app',
    values = 'time'
)

In [None]:
df8.head()

In [None]:
df8.info()

In [139]:
# recuperar las cols que están como index
df8.reset_index(inplace=True)

In [None]:
df8.info()

In [None]:
df8.head()

### **Tema 04: Detección de outliers**

In [147]:
df7.head()

Unnamed: 0,Marca temporal,Sexo,edad2,app,time
0,9/08/2021 12:23:46,Hombre,16.0,TikTok,0:00:00
1,9/08/2021 12:25:01,Mujer,16.0,TikTok,0:50:00
2,9/08/2021 12:26:31,Hombre,17.0,TikTok,8:00:00
3,9/08/2021 12:28:49,Mujer,22.0,TikTok,22:35:00
4,9/08/2021 12:31:43,Hombre,16.0,TikTok,7:00:00


In [149]:
df7['time'].dtype

dtype('O')

Transformar horas a número

In [150]:
# split() separa texto
'22:35:00'.split(':')

['22', '35', '00']

In [151]:
# función conversora
def tiempo_a_num(x):
  x = x.split(':')
  return int(x[0]) + int(x[1])/60 + int(x[2])/3600

In [153]:
tiempo_a_num('22:30:00')

22.5

In [155]:
df7['time'] = df7['time'].apply(tiempo_a_num)

In [158]:
df7.head()

Unnamed: 0,Marca temporal,Sexo,edad2,app,time
0,9/08/2021 12:23:46,Hombre,16.0,TikTok,0.0
1,9/08/2021 12:25:01,Mujer,16.0,TikTok,0.833333
2,9/08/2021 12:26:31,Hombre,17.0,TikTok,8.0
3,9/08/2021 12:28:49,Mujer,22.0,TikTok,22.583333
4,9/08/2021 12:31:43,Hombre,16.0,TikTok,7.0


#### **Boxplots**

In [157]:
import plotly.express as px

In [160]:
boxplot_01 = px.box(df7, y = 'time')

In [161]:
boxplot_01.show()

Aperturar por app

In [164]:
px.box(df7, x = 'app', y = 'time')