<a href="https://colab.research.google.com/github/auzaluis/upsa_mod_202502/blob/master/personalidad/01_script_ETL_personalidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Tema 01: Carga de datos

### Importando base de datos

In [None]:
# Google Auth
from google.colab import auth
auth.authenticate_user()
print('Authenticated')

In [None]:
# API client
from google.auth import default
creds, _ = default()

In [None]:
# gspread authorization
import gspread
gc = gspread.authorize(creds)

In [None]:
# Accediendo al Google Sheet
url = 'https://docs.google.com/spreadsheets/d/1IQ_RxxTSmBKHTExlxboIRNlMov_F6RyqdcOPrflCv_w/edit?usp=sharing'
gsheets = gc.open_by_url(url)
sheets = gsheets.worksheet('Respuestas de formulario 1').get_all_values()

In [None]:
type(sheets)

In [None]:
# Convirtiendo a data frame
import pandas as pd
df = pd.DataFrame(sheets[1:], columns=sheets[0])

### Inspección del data frame

In [None]:
type(df)

In [None]:
df.head()

In [None]:
# Ver la estructura del df
df.info()

In [None]:
# Tupla con la cantidad de filas y columnas
df.shape

In [None]:
# Cantidad de filas
len(df)

In [None]:
# Cantidad de columnas
len(df.columns)

In [None]:
df.columns

## Tema 02: Transformación de datos

### Valores perdidos

Identificando NAs

In [None]:
df[['Escribe tu edad exacta']]

In [None]:
# Los NAs están como strings vacíos
import numpy as np
df.replace('', np.nan, inplace=True)

In [None]:
df.info()

In [None]:
df['Escribe tu edad exacta'].isna().value_counts()

Tratando los NAs

In [None]:
df['Escribe tu edad exacta'].dtype

In [None]:
df['Escribe tu edad exacta'] = pd.to_numeric(df['Escribe tu edad exacta'], errors='coerce')

In [None]:
df['Escribe tu edad exacta'].dtype

Imputacion por el promedio

In [None]:
# Calcular la media
edad_promedio = df['Escribe tu edad exacta'].mean().round(0)
edad_promedio

In [None]:
# Creando un nuevo df
df2 = df.copy()

In [None]:
# Reemplazo por la media
df2['edad2'] = df2['Escribe tu edad exacta'].fillna(edad_promedio)

In [None]:
df2[['Escribe tu edad exacta', 'edad2']]

In [None]:
df2.info()

In [None]:
# Relocalizar la columna 'edad2' después de 'Escribe tu edad exacta'
# lista_columnas = list(df2.columns).index('Escribe tu edad exacta') + 1
# lista_columnas

In [None]:
# df2.insert(lista_columnas, 'edad2', df2.pop('edad2'))

In [None]:
# df2.info()

Creando relocate en py

In [None]:
def relocate(df, columna, after):
  lista_columnas = list(df.columns).index(after) + 1
  df.insert(lista_columnas, columna, df.pop(columna))
  return df

In [None]:
relocate(
    df = df2,
    columna = 'edad2',
    after = 'Escribe tu edad exacta'
)

In [None]:
df2.columns

Eliminando las filas que contienen NAs

In [None]:
df2.shape

In [None]:
df2.dropna(inplace=True)

In [None]:
df2.shape

### Estandarización de variables

#### Normalización

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# Instanciando StandardScaler()
normalizador = StandardScaler()

In [None]:
df2[['edad2']]

In [None]:
# normalizando
normalizador.fit_transform(df2[['edad2']])

In [None]:
# creando df3
df3 = df2.copy()

In [None]:
df3['edadZ'] = normalizador.fit_transform(df3[['edad2']])

In [None]:
df3 = relocate(
    df = df3,
    columna = 'edadZ',
    after = 'edad2'
)

In [None]:
df3.info()

#### Rango

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
# Instanciando MinMaxScaler()
rango = MinMaxScaler()

In [None]:
df3['edad_rango'] = rango.fit_transform(df3[['edad2']])

In [None]:
df3 = relocate(
    df = df3,
    columna = 'edad_rango',
    after = 'edadZ'
)

In [None]:
df3.info()

In [None]:
df3[['edad2', 'edadZ', 'edad_rango']].head()

### Agrupaciones

#### Numéricas

In [None]:
cortes = [-float('inf'), 18, 21, float('inf')]
etiquetas = ['18 o menos', '19 a 21', 'Más de 21']

In [None]:
df3['edadGR'] = pd.cut(df3['edad2'], bins=cortes, labels=etiquetas)

In [None]:
df3.value_counts('edadGR', normalize=True)

In [None]:
df3[['edad2', 'edadZ', 'edad_rango', 'edadGR']].head()

In [None]:
df3 = relocate(
    df = df3,
    columna = 'edadGR',
    after = 'edad_rango'
)

In [None]:
df3.info()

#### Categóricas

In [None]:
df3.info()

In [None]:
pd.unique(df3['Según tu forma de ser ¿Cuál de las siguientes frases te describe mejor: [Busco el éxito sin importar lo que deba sacrificar]'])

In [None]:
pd.unique(df3.iloc[:,12])

In [None]:
df3['Según tu forma de ser ¿Cuál de las siguientes frases te describe mejor: [Busco hacer cosas emocionantes para no aburrirme]'].value_counts()

In [None]:
df3.iloc[:,15].value_counts()

Top 2 Box

In [None]:
df3.iloc[:,8].value_counts()

In [None]:
df3.iloc[:,8].isin(['Totalmente verdadero', 'Un poco verdadero']).sum()

In [None]:
# Funcion condicional para top2box
def top2box(x):
  if x in ['Totalmente verdadero', 'Un poco verdadero']:
    return 1
  else:
    return 0

In [None]:
# Aplicando la funcion
(
    df3.iloc[:,8]
    .apply(top2box)
    .value_counts()
)

In [None]:
# Función lambda
df3.iloc[:,8].apply(
    lambda x: 1 if x in ['Totalmente verdadero', 'Un poco verdadero'] else 0
).value_counts()

### De ordinal a numérica

In [None]:
import numpy as np

In [None]:
df3.iloc[:,8].unique()

In [None]:
# Condiciones
condiciones = [
    df3.iloc[:,8] == 'Totalmente verdadero',
    df3.iloc[:,8] == 'Un poco verdadero',
    df3.iloc[:,8] == 'No lo sé',
    df3.iloc[:,8] == 'Un poco falso',
    df3.iloc[:,8] == 'Totalmente falso'
]

In [None]:
# resultados
resultados = [5,4,3,2,1]

In [None]:
# Usando select
numeric = np.select(condiciones, resultados, default=np.nan)
numeric

In [None]:
numeric.mean()

In [None]:
np.unique(numeric, return_counts=True)

## Bucles

### Forma standard

In [None]:
# Creando el df4
df4 = df3.copy()

In [None]:
df4.info()

In [None]:
# Creando una lista vacía
frases = []

# bucle para llenar la lista
for col in df4.columns:
  if col.startswith('Según'):
    frases.append(col)

In [None]:
frases

In [None]:
# aplicando la función top2box a las columnas que pertenecen a 'frase'
for frase in frases:
  df4[frase] = df4[frase].apply(top2box)

In [None]:
df4[frases].head()

### Pythonic way | Forma pythonica

In [None]:
# Creando df5
df5 = df3.copy()

In [None]:
# Lista vacía
frases = []

# Comprehension list
frases = [col for col in df5.columns if col.startswith('Según')]

In [None]:
frases

In [None]:
# Aplicando el bucle, esta vez con lambda
for frase in frases:
  df5[frase] = df5[frase].apply(lambda x: 1 if x in ['Totalmente verdadero', 'Un poco verdadero'] else 0)

In [None]:
df5[frases] == df4[frases]

## Tema 03: Manipulación de datos

### Selección de columnas

In [None]:
df5['Sexo']

In [None]:
df5[['Sexo']]

In [None]:
df5[['Sexo', 'edad2']]

In [None]:
# eliminar columna
df5.drop(columns=['Marca temporal'])

In [None]:
# Seleccionar cols que comienzan con... ¿Cuánto
df5[[col for col in df5.columns if col.startswith('¿Cuánto')]]

In [None]:
# Seleccionar cols que terminan con un corchete
df5[[col for col in df5.columns if col.endswith(']')]]

In [None]:
# contains
df5.filter(like='edad')

### Selección de filas

In [None]:
# Seleccionar filas cuando Sexo = 'Mujer'
df5[df5['Sexo'] == 'Mujer']

In [None]:
# Seleccionar filas cuando Sexo no es = 'Mujer'
df5[df5['Sexo'] != 'Mujer']['Sexo']

In [None]:
# Seleccionar las filas en las que edad2 sea mayor a 20
df5[df5['edad2'] > 20]['edad2']

In [None]:
# Seleccionar edad2 cuando el valor está entre 18 y 21
df5[(df5['edad2'] >= 18) & (df5['edad2'] <= 21)]['edad2']

In [None]:
# Seleccionar edad2 cuando el valor está entre 18 y 21 y Sexo = Mujer
df5[(df5['edad2'] >= 18) & (df5['edad2'] <= 21) & (df5['Sexo'] == 'Mujer')]['edad2']

### Renombrado de columnas

In [None]:
df6 = df5.copy()

In [None]:
df6.columns

APPS

**Paso 1:** Crear una lista con los nuevos nombres

In [None]:
apps = ['TikTok', 'Instagram', 'Facebook', 'YouTube']

**Paso 2:** Crear un dict que contenga los nombres antiguos como claves (keys) y los nombres nuevos como valores (values)

In [None]:
apps_dict = dict(zip(
    [col for col in df6.columns if col.startswith('¿Cuánto tiempo')],
    apps
))

In [None]:
apps_dict

**Paso 3:** Renombrando

In [None]:
df6.rename(apps_dict, axis=1, inplace=True)

In [None]:
df6.info()

Frases

In [None]:
df6.columns = (
    df6.columns
    .str.replace('Según tu forma de ser ¿Cuál de las siguientes frases te describe mejor: [', '')
    .str.replace(']', '')
)

In [None]:
df6.info()

### Pivotado

#### Pivot Longer

In [None]:
apps

In [None]:
df7 = df6.melt(
    id_vars = ['Marca temporal', 'Sexo', 'edad2'],
    value_vars = apps,
    var_name = 'app',
    value_name = 'time'
)

In [None]:
df7.head()

#### Pivot Wider

In [113]:
df8 = df7.pivot(
    index = ['Marca temporal', 'Sexo', 'edad2'],
    columns = 'app',
    values = 'time'
).reset_index()

In [None]:
df8