<a href="https://colab.research.google.com/github/auzaluis/2024-1_UTEPSA_BigData_AnalisisDeDatos/blob/main/Python/01_script_ETL_personalidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tema 1: Carga de datos

## **Importando base de datos**

In [None]:
# Google Auth
from google.colab import auth
auth.authenticate_user()

In [None]:
# API Client
from google.auth import default
creds, _ = default()

In [None]:
# gspread Authorization
import gspread
gc = gspread.authorize(creds)

In [None]:
# Accediendo al Google Sheet
url_personalidad = "https://docs.google.com/spreadsheets/d/1IQ_RxxTSmBKHTExlxboIRNlMov_F6RyqdcOPrflCv_w/edit?usp=sharing"
gsheets = gc.open_by_url(url_personalidad)
sheets = gsheets.worksheet("Respuestas de formulario 1").get_all_values()

In [None]:
type(sheets)

In [None]:
# Convirtiendo en un df
import pandas as pd
df = pd.DataFrame(sheets[1:], columns = sheets[0])

## Inspección data frame

In [None]:
type(df)

In [None]:
# Visualizando las primeras filas
df.head()

In [None]:
# Mirada general
df.info()

In [None]:
# Tipo de datos
df["Sexo"].dtype

In [None]:
# Número de filas y columnas
df.shape

In [None]:
# Número de filas
len(df)

In [None]:
df.columns

In [None]:
len(df.columns)

# **Tema 2: Transformación de datos**

## **Valores perdidos**

### **Identificación de los NAs**

In [None]:
# Los NAs en realidad son strings vacíos
import numpy as np
df.replace("", np.nan, inplace = True)

In [None]:
df['Escribe tu edad exacta'].isna().value_counts()

### **Omitiendo**



In [None]:
df['Escribe tu edad exacta'].dtype

In [None]:
df['Escribe tu edad exacta'] = pd.to_numeric(df['Escribe tu edad exacta'], errors = 'coerce')

In [None]:
df['Escribe tu edad exacta'].dtype

In [None]:
df['Escribe tu edad exacta'].mean()

In [None]:
edad_promedio = df['Escribe tu edad exacta'].mean()

### **Reemplazo por la media**

In [None]:
# creando df2
df2 = df.copy()

In [None]:
# reemplazo por la media
df2["edad2"] = df2["Escribe tu edad exacta"].fillna(edad_promedio)

**Reubicando la columna edad2**

In [None]:
# Colocar los nombres de las columnas en una lista
lista_columnas = df2.columns.to_list()

In [None]:
# Quitar temporalmente edad2 de la lista
lista_columnas.remove("edad2")

In [None]:
# obteniendo el índice de la columna 'after'
lista_columnas.index("Escribe tu edad exacta")

In [None]:
# insertando 'edad2' después de 'Escribe tu edad exacta'
lista_columnas.insert(lista_columnas.index("Escribe tu edad exacta") + 1, "edad2")

In [None]:
# Reordenando y guadando en df2
df2 = df2[lista_columnas]

**Emulando relocate() de R en Python**

In [None]:
def relocate(df, columna, after):
  lista_columnas = df.columns.to_list()
  lista_columnas.remove(columna)
  lista_columnas.insert(lista_columnas.index(after) + 1, columna)
  return df[lista_columnas]

In [None]:
relocate(
    df = df2,
    columna = "edad2",
    after = "Escribe tu edad exacta"
)

### **Eliminar la fila completa**

In [None]:
df2 = df2.dropna()

In [None]:
df2.shape

## **Estandarización de variables**

### **Normalización**

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# instanciando StandardScaler()
normalizador = StandardScaler()

In [None]:
# normalizando
normalizador.fit_transform(df2[["edad2"]])

In [None]:
# Creando df3
df3 = df2.copy()

In [None]:
df3["edadZ"] = normalizador.fit_transform(df2[["edad2"]])

In [None]:
# Reubicando edadZ
df3 = relocate(
    df = df3,
    columna = "edadZ",
    after = "edad2"
)

### **Rango**

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
# instanciando MinMaxScaler()
rango = MinMaxScaler()

In [None]:
rango.fit_transform(df3[["edad2"]])

In [None]:
df3["edadRango"] = rango.fit_transform(df3[["edad2"]])

In [None]:
df3 = relocate(
    df = df3,
    columna = "edadRango",
    after = "edadZ"
)

In [None]:
df3.head()

## **Agrupaciones**

### **Numéricas**

In [None]:
cortes = [-float("inf"), 18, 21, float("inf")]
etiquetas = ["18 o menos", "19 a 21", "Más de 21"]

In [None]:
# Creando columna edadGR
df3["edadGR"] = pd.cut(
    df3["edad2"],
    bins = cortes,
    labels = etiquetas
)

In [None]:
# comparando
pd.DataFrame({
    "original": df3["edad2"],
    "edadGR": df3["edadGR"]
})

### **Categóricas**

In [None]:
# índices del df3
df3.info()

In [None]:
# identificando los niveles
pd.unique(df3.iloc[:,7])

In [None]:
df3.iloc[:,7].value_counts()

In [None]:
# prueba lógica top 2 box
df3.iloc[:,7].isin(["Totalmente verdadero", "Un poco verdadero"]).value_counts()

**Dummitización**

In [None]:
# función condicional normal
def top2box(x):
  if x in ["Totalmente verdadero", "Un poco verdadero"]:
    return 1
  else:
    return 0

In [None]:
# aplicando la función
df3.iloc[:,7].apply(top2box)

In [None]:
# frecuencias
df3.iloc[:,7].apply(top2box).value_counts()

**Funciones lambda**

In [None]:
df3.iloc[:,7].apply(lambda x: 1 if x in ["Totalmente verdadero", "Un poco verdadero"] else 0).value_counts()

**Escala ordinal**

In [None]:
import numpy as np

In [None]:
# niveles
pd.unique(df3.iloc[:,7])

In [None]:
condiciones = [
    df3.iloc[:,7] == "Totalmente falso",
    df3.iloc[:,7] == "Un poco falso",
    df3.iloc[:,7] == "No lo sé",
    df3.iloc[:,7] == "Un poco verdadero",
    df3.iloc[:,7] == "Totalmente verdadero"
]

opciones = [1, 2, 3, 4, 5]

In [None]:
ordinal = np.select(
    condlist = condiciones,
    choicelist = opciones,
    default = np.nan
)

In [None]:
# como se trata de un objeto de numpy, el método es distinto
np.unique(ordinal, return_counts = True)

In [None]:
# si quisieras usar value_counts()...
pd.Series(ordinal).value_counts()

**Bucles**

Manera convencional

In [None]:
# creando df4
df4 = df3.copy()

In [None]:
df4.columns

In [None]:
# crear una lista vacía
frases = []

# creando bucle para llenar vector vacío
for col in df4.columns:
  if col.startswith("Según tu"):
    frases.append(col)

In [None]:
frases

In [None]:
# creando otro bucle, esta vez para dummitizar
for var in frases:
  df4[var] = df4[var].apply(top2box)

Manera pythonica

In [None]:
# creando df5
df5 = df3.copy()

In [None]:
# crear una lista vacía
frases = []

# usando list comprehension
frases = [col for col in df5.columns if col.startswith("Según tu")]

In [None]:
# creando el bucle para dummitizar con función lambda
for var in frases:
  df5[var] = df5[var].apply(lambda x: 1 if x in ["Totalmente verdadero", "Un poco verdadero"] else 0)

# **Tema 3: Manipulación de data frames**

## **Selección de columnas**

In [None]:
df5["Sexo"]

In [None]:
df5[["Sexo"]]

In [None]:
df5[["Sexo", "edad2"]]

In [None]:
df5.drop(columns = ["Marca temporal"], axis = 1)

In [None]:
df5[[col for col in df5.columns if col.startswith("edad")]]

In [None]:
df5[[col for col in df5.columns if col.endswith("00")]]

In [None]:
df5.drop(df5.iloc[:,0:5], axis = 1)

In [None]:
df5.filter(like = "edad", axis = 1)

## **Selección de filas**

In [None]:
df5[df5["Sexo"] == "Mujer"]

In [None]:
df5[df5["Sexo"] != "Hombre"]

In [None]:
df5[df5["edad2"] >= 20]

In [None]:
df5[
    (df5["edad2"] >= 18) &
    (df5["edad2"] <= 21) &
    (df5["Sexo"] == "Hombre")
][["Sexo", "edad2"]]

In [None]:
df3[df3.iloc[:,7].str.contains("falso", regex = False)]

## **Cambio de nombre de columnas**

In [None]:
df6 = df5.copy()

### **Apps**

In [None]:
df6.info()

**Paso 1:** Crear una lista con los nuevos nombres

In [None]:
apps = ["TikTok", "Instagram", "Facebook", "YouTube"]

In [None]:
apps

**Paso 2:** Crear un dict que contenga los nombres antiguos como claves (key) y los nuevos como valor (value)

In [None]:
# zip() crea tuplas (nombre antiguo, nombre nuevo)
# dict() almacena en un diccionario
apps_dict = dict(
    zip(
        [col for col in df6.columns if col.endswith("00")],
        apps
    )
)

In [None]:
apps_dict

**Paso 3:** Reemplazar

In [None]:
df6.rename(apps_dict, axis = 1, inplace = True)

In [None]:
df6.info()

### **Frases**

**Paso 0:** Convertir la lista a pd.Series

In [None]:
type(frases)

In [None]:
frases2 = pd.Series(frases)

In [None]:
type(frases2)

**Paso 1:** Crear una lista con los nuevos nombres

In [None]:
# Solución de Samuel Vizcarra
# con corchetes: \[.*?\]
# sin corchetes: \[(.*?)\]
frases2 = frases2.str.extract("\\[(.+)\\]")[0]

**Paso 2:** Crear un dict que contenga los nombres antiguos como claves (key) y los nuevos como valor (value)

In [None]:
frases_dict = dict(zip(frases, frases2))

In [None]:
frases_dict

**Paso 3:** Reemplazar

In [None]:
df6.rename(frases_dict, axis = 1, inplace = True)

In [None]:
df6.info()

## **Pivotado de base de datos**

### **Pivot Longer**

In [None]:
df7 = df6.melt(
    # identifiers
    id_vars = ["Marca temporal", "Sexo", "edad2"],
    value_vars = apps,
    var_name = "app",
    value_name = "time"
)

In [None]:
df7.shape

In [None]:
df7

### **Pivot Wider**

In [None]:
df8 = df7.pivot(
    # identifiers
    index = ["Marca temporal", "Sexo", "edad2"],
    columns = "app",
    values = "time"
)

In [None]:
# Notar que las columnas se ven raras
df8.head()

In [None]:
# Los identifiers NO son columnas
df8.info()

In [None]:
# Reiniciando index
df8.reset_index(inplace = True)

In [None]:
df8.head()

In [None]:
# Quitando nombre al grupo de columnas
df8.columns.name = None

In [None]:
df8.head()

# **Tema 4: Detección de outliers**

**Transformación de horas a númerico**

In [None]:
# split separa textos
"02:30:45".split(":")

In [None]:
# función conversora
def tiempo_a_num(x):
  return int(x.split(":")[0]) + int(x.split(":")[1])/60 + int(x.split(":")[2])/60**2

In [None]:
# probando la función
tiempo_a_num("00:30:00")

In [None]:
df7["time"] = df7["time"].apply(tiempo_a_num)

## **Gráfica: Boxplot**

In [None]:
import plotly.express as px

In [None]:
px.box(df7, y = "time")

**Apertura por app**

**Usando plotly**

In [None]:
px.box(
    # esta parte es la equivalente a ggplot()
    df7,
    x = "app",
    y = "time",
    color = "app",
    # points = "all"
).update_layout(
    # update_layout es el equivalente a theme() en ggplot
    title = "Apertura por app",
    showlegend = False,
    xaxis_title = "App",
    yaxis_title = "Tiempo (horas)",
    plot_bgcolor = "white"
).update_traces({
    "marker": {"size": 8},
    "line": {"width": 4},
    "fillcolor": "white"
})

**Usando ggplot**

In [None]:
from plotnine import *

In [None]:
# Los paréntesis especifican que todo forma parte de un solo statement
(
    ggplot(df7, aes(x = "app", y = "time", color = "app"))
    + geom_boxplot()
    + geom_jitter(width = 0.2, alpha = 0.5)
    + theme_minimal()
    + theme(legend_position = "none")
    + labs(
        title = "Apertura por app",
        x = "App",
        y = "Tiempo (horas)"
    )
).draw()

## **Tratamiento**

In [None]:
df9 = df7.copy()

In [None]:
condiciones = (
    ((df9["app"] == "TikTok")    & (df9["time"] > 16.37)) |
    ((df9["app"] == "Instagram") & (df9["time"] > 12))    |
    ((df9["app"] == "Facebook")  & (df9["time"] > 10))    |
    ((df9["app"] == "YouTube")   & (df9["time"] > 9))
)

In [None]:
df9["outlier"] = np.where(condiciones, "outlier", "No outlier")

In [None]:
df9["promedio"] = df9.groupby("app")["time"].transform("mean")

In [None]:
df9["time2"] = np.where(df9["outlier"] == "outlier", df9["promedio"], df9["time"])

In [None]:
df9

# **Tema 5: Exploratory Data Analysis (EDA)**

## **Variables categóricas**

In [None]:
# conteo
df6["edadGR"].value_counts()

In [None]:
# proporciones
df6["edadGR"].value_counts(normalize = True)

In [None]:
# orden ascendente
df6["edadGR"].value_counts().sort_values()

In [None]:
# orden descendente
df6["edadGR"].value_counts().sort_values(ascending = False)

In [None]:
# de Series a DataFrame
df_edadGR = df6["edadGR"].value_counts().reset_index()
df_edadGR.columns = ["edadGR", "n"]

In [None]:
# orden ascendente por columna
df_edadGR.sort_values(by = "n", ascending = True)

In [None]:
# crear nuevas columnas calculadas
df_edadGR["prop"] = df_edadGR["n"] / df_edadGR["n"].sum()

In [None]:
df_edadGR

## **Variables numéricas**

In [None]:
df9["time"].describe()