<a href="https://colab.research.google.com/github/EAFIT-BI/BI-Introduction-2024-1/blob/main/Inspecci%C3%B3n_y_preparaci%C3%B3n_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Inspección y preparación de datos

Para la inspección de datos es importante tener en cuenta la calidad de la información en cuanto a elementos faltantes, orden de la información y ciertos tipos de filtrado. En cuanto a la preparación, es relevante la imputación o eliminación de información faltante  y la creación de subconjuntos de datos.

## Inspección de datos

In [None]:
#cargamos las librerías requeridas
import pandas as pd

#cargamos los datos
balance = pd.read_excel("/content/BalanceGig.xlsx", sheet_name = "Gig")
balance.head(2)

In [13]:
#revisamos la cantidad de empleados de la tabla
balance.shape[0]

604

In [None]:
#vamos a revisar cuántos datos en la columna industria están vacíos
pd.isna(balance.Industry).sum()

In [None]:
#ahora estamos interesados en conocer dónde están los registros faltantes
import numpy as np

np.where(pd.isna(balance.Industry))

In [None]:
#vamos a buscar el registro 23 para corroborar la información
balance.iloc[23,]

In [8]:
#ahora queremos conocer cuántos empleados están en la industria automotriz
(balance.Industry == "Automotive").sum()

190

In [12]:
#queremos conocer cuántos ganan más de USD$30 horas
(balance.HourlyWage > 30).sum()

536

In [None]:
#queremos saber qué industrias hay
balance.Industry.unique()

In [None]:
#vamos a contabilizar cuántos empleados de la industria Tech ganan más de USD$30
((balance.Industry == "Tech") & (balance.HourlyWage > 30)).sum()

In [None]:
#cuántos empleados hay de tech?
(balance.Industry == "Tech").sum()

In [None]:
#ordenamos los datos por el valor de la hora
sortedData1 = balance.sort_values('HourlyWage', ascending = False)
sortedData1.head(4)

In [None]:
sortedData2 = balance.sort_values(['Industry', 'Job', 'HourlyWage'],
                                  ascending = [True, False, False])
sortedData2.head(10)

In [27]:
#también se pueden hacer filtrados tipo query, así:
#supongamos que queremos conocer los contadores en tech

accountantTech = balance.query("Job == 'Accountant' & Industry == 'Tech'")\
.sort_values("HourlyWage", ascending = False)

In [None]:
accountantTech

## Preparación de datos

In [33]:
#lectura de los datos
reviews = pd.read_excel("/content/RestaurantReviews.xlsx")
reviews.tail(3)

#para resolver el problema del espacio en el nombre de la columna servicio
#se hace lo siguiente

reviews.columns = reviews.columns.str.strip()

In [None]:
#revisamos los datos que no están digitados en la tabla
pd.isna(reviews).sum()

In [36]:
#la primera alternativa cuando tenemos datos vacíos es la omisión

omision = reviews.dropna()

In [None]:
pd.isna(omision).sum()

In [38]:
#la segunda alternativa es hacer imputación
datos_imputados = reviews.fillna(reviews.mean())

In [None]:
pd.isna(datos_imputados).sum()

In [41]:
customers = pd.read_excel("/content/Customers.xlsx")
customers.head(2)

Unnamed: 0,CustID,Sex,Race,BirthDate,College,HouseholdSize,ZipCode,Income,Spending2020,Spending2021,NumOfOrders,DaysSinceLast,Satisfaction,Channel
0,1530016,Female,Black,1986-12-16,Yes,5,90047,53000,287,241,3,101,Very Dissatisfied,SM
1,1531136,Male,White,1993-05-09,Yes,5,90026,94000,1227,843,12,262,Neutral,TV


In [None]:
#creamos un subconjunto de datos, con aquellos clientes con estudios universitarios
#y millenials (82 - 99)

college_millenials = customers.query("College == 'Yes' &\
                                     BirthDate >= '1982-01-01' & \
                                     BirthDate <= '1999-12-31'")

college_millenials.head()

In [43]:
customers.shape[0]

200

In [44]:
college_millenials.shape[0]

59

In [45]:
#reducimos la cantidad de información sobre los clientes segmentados,
#de acuerdo al interés de la campaña publicitaria
college_millenials1 = college_millenials[['Income', 'NumOfOrders', 'Channel']]
college_millenials1.tail(1)

Unnamed: 0,Income,NumOfOrders,Channel
199,102000,10,SM
