<a href="https://colab.research.google.com/github/auzaluis/upsa_mod_202501/blob/main/personalidad/01_script_ETL_personalidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tema 01: Carga de datos

## Importando base de datos

In [None]:
# Google Auth
from google.colab import auth
auth.authenticate_user()

In [None]:
# API client
from google.auth import default
creds, _ = default()

In [None]:
# gspread authorization
import gspread
gc = gspread.authorize(creds)

In [None]:
# Accediendo al Google Sheet
url_personalidad = 'https://docs.google.com/spreadsheets/d/1IQ_RxxTSmBKHTExlxboIRNlMov_F6RyqdcOPrflCv_w/edit?usp=sharing'
gsheets = gc.open_by_url(url_personalidad)
sheets = gsheets.worksheet('Respuestas de formulario 1').get_all_values()

In [None]:
type(sheets)

In [None]:
# Convirtiendo la lista en df
import pandas as pd
df = pd.DataFrame(sheets[1:], columns=sheets[0])

## Inspección del data frame

In [None]:
type(df)

In [None]:
# ver el tamaño del df
df.shape

In [None]:
# Ver las primeras filas
df.head()

In [None]:
# Ver al estructura del df
df.info()

In [None]:
# dtype
df['Sexo'].dtype

In [None]:
# Número de filas
len(df)

In [None]:
# Número de columnas
len(df.columns)

# Tema 02: Transformación de datos

## Valores perdidos

### Identificando NAs

In [None]:
# Los NAs están como strings vacíos
import numpy as np
df.replace('', np.nan, inplace=True)

In [None]:
df['Escribe tu edad exacta'] \
.isna() \
.value_counts()

### Tratando los NAs

In [None]:
df['Escribe tu edad exacta'].dtype

In [None]:
df['Escribe tu edad exacta'] = pd.to_numeric(df['Escribe tu edad exacta'], errors='coerce')

In [None]:
df['Escribe tu edad exacta'].dtype

Reemplazo por la media

In [None]:
edad_promedio = df['Escribe tu edad exacta'].mean()

In [None]:
# Creando df2
df2 = df.copy()

In [None]:
# Reemplazo por la media
df2['edad2'] = df2['Escribe tu edad exacta'].fillna(edad_promedio)

In [None]:
df2[['Escribe tu edad exacta', 'edad2']]

Reubicando edad2

In [None]:
# Crear una lista con los nombres de las columnas
lista_columnas = list(df2.columns)

In [None]:
# Quitando temporalmente edad2 de la lista
lista_columnas.remove('edad2')

In [None]:
# Obteniendo el índice (posición) de la columna "after"
lista_columnas.index('Escribe tu edad exacta')

In [None]:
# Insertando "edad2" después de "Escribe tu edad exacta"
lista_columnas.insert(lista_columnas.index('Escribe tu edad exacta') + 1, 'edad2')

In [None]:
df2 = df2[lista_columnas]

In [None]:
df2.info()

Creando relocate() en py

In [None]:
def relocate(df, columna, after):
  lista_columnas = list(df.columns)
  lista_columnas.remove(columna)
  lista_columnas.insert(lista_columnas.index(after) + 1, columna)
  return df[lista_columnas]

In [None]:
relocate(
    df = df2,
    columna = 'edad2',
    after = 'Escribe tu edad exacta'
)

Eliminar la fila completa

In [None]:
df2.shape

In [None]:
df2.dropna(inplace=True)

In [None]:
df2.shape

## Estandarización de variables

### Normalización

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# instansciando StandardScaler()
normalizador = StandardScaler()

In [None]:
# normalizando
normalizador.fit_transform(df2[['edad2']])

In [None]:
# creando df3
df3 = df2.copy()

In [None]:
df3['edadZ'] = normalizador.fit_transform(df3[['edad2']])

In [None]:
df3 = relocate(
  df = df3,
  columna = 'edadZ',
  after = 'edad2'
)

### Rango

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
# instanciando MinMaxScaler()
rango = MinMaxScaler()

In [None]:
df3['edadR'] = rango.fit_transform(df3[['edad2']])

In [None]:
df3 = relocate(
  df = df3,
  columna = 'edadR',
  after = 'edadZ'
)

In [None]:
df3[['edad2', 'edadZ', 'edadR']]

## Agrupaciones

### Numéricas

In [47]:
cortes = [-float('inf'), 18, 21, float('inf')]
etiquetas = ['18 o menos', '19 a 21', 'Más de 21']

In [51]:
df3['edadGR'] = pd.cut(
    x = df3['edad2'],
    bins = cortes,
    labels = etiquetas
)

In [53]:
df3 = relocate(
    df = df3,
    columna = 'edadGR',
    after = 'edadR'
)

In [55]:
df3['edadGR'].value_counts()

Unnamed: 0_level_0,count
edadGR,Unnamed: 1_level_1
Más de 21,111
19 a 21,97
18 o menos,31


### Categóricas

In [None]:
# Revisando índices
df3.info()

In [60]:
# Valores únicos
pd.unique(df3.iloc[:,8])

array(['No lo sé', 'Totalmente verdadero', 'Un poco falso',
       'Un poco verdadero', 'Totalmente falso'], dtype=object)

In [None]:
# Frecuencias
df3.iloc[:,8].value_counts()

In [None]:
df3.iloc[:,8].isin(['Totalmente verdadero', 'Un poco verdadero'])

Dummitización

In [None]:
# Función condicional normal
