# Data wrangling

*   Manipulacion de dataframes
*   Tablas agregadas
*   Exploracion de datos y visualizaciones

# Preparacion

In [None]:
# importando modulos que se van a utilizar
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt # visualizacion
import seaborn as sns # seaborn

In [None]:
# identificar el directorio y la ruta del archivo a consultar
mainpath = "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/"
filename = "Salary_Dataset_with_Extra_Features.csv"
fullpath = os.path.join(mainpath, filename)
# leer el archivo utilizando la ruta
df_000 = pd.read_csv(fullpath)
# realizar una copia del archivo leido copmo backup
df = df_000.copy()

# Visualizar dataframe

In [None]:
display(df)

In [None]:
df.head(5)

* Información sobre las dimensiones y tipo de variables

In [None]:
df.info()

## Subconjuntos

* construir un subconjunto de filas a través de su posición

In [None]:
# navegar por datfarame utilizando la localizacion
# entre las llaves a la izquierda encontramos las filas y a la derecha encontraremos las columnas
df.iloc[0:3,] # range 0:3  solo incluye 0,1 y 2

In [None]:

# entre las llaves a la izquierda encontramos las filas y a la derecha encontraremos las columnas
df.iloc[0:2,1:] # fila 0,1 y las columnas desde la 1

In [None]:
df['Salary'] # selecciona una columna

In [None]:
df[['Job Title', 'Salary']] # seleccionamos dos columnas del dataframe indicando con lista de nombre de columnas

In [None]:
# haga una lista de las columnas segun el tipo de datos que contienen solicitado
df.select_dtypes(['float64' , 'int64']).columns

In [None]:
# filtrar la base dada una condicion
df[df['Salary']>300000]

In [None]:
# filtrar la base dada una condicion
df[df.Salary>500000]

In [None]:
lista_buscar = ['Accenture','Oracle'] # lista de opciones en string
df[df['Company Name'].isin(lista_buscar)]

In [None]:
# filtrar la base dada una condicion
# que los valores de la columna se encuentre en la lista indicada
lista_a_buscar = [4,5,6,7]

# filtrar dataframe segun condicion de busqyeueda dentro de lista
df[df['Salaries Reported'].isin(lista_a_buscar)]

# df[df["Salaries Reported"].isin([4,5,6,7])]

In [None]:
# filtrar cuando cumpla dos condiciones al mismo tiempo
# or |
# and &
# not !
df[(df.Salary>1500000) & (df["Salaries Reported"].isin([8,9]))]

## Eliminar valores ausentes/omitidos

In [None]:
# drop : eliminar
# na :  valores ausentes NULL, NaN, NA
df.dropna(subset=["Company Name"], axis=0, inplace=True) # eliminar filas con valores en ausentes en la columna indicada

## Limpieza de texto

* lower: Poner en minúscula todo el texto.
* replace: Remplazar ciertos valores por otros.
* strip: Eliminar los espacios al principio y al final de la cadena.
* title: Poner primera letra de cada palabra en mayúscula.

In [None]:
txt = ' canción 9  '
txt.lower()

In [None]:
txt = ' canción 9  '
txt.upper()

In [None]:
txt = ' canción 9  '
txt.replace("c","k")

In [None]:
txt = ' canción 9  '
txt.strip()

In [None]:
txt = ' canción 9  '
txt.title()

In [None]:
# generar nueva columna luego de realizar un tratamiento de texto
df["Company Name 2nd"] = df["Company Name"].str.upper()
df["Company Name 2nd"] = df["Company Name 2nd"].str.replace("S","XXX")
df["Company Name 2nd"] = df["Company Name 2nd"].str.strip()
df["Company Name 2nd"] = df["Company Name 2nd"].str.title()
df[["Company Name","Company Name 2nd"]]

In [None]:
# generar nueva columna luego de realizar un tratamiento de texto

df["Company Name 2nd"] = (df["Company Name"]
                            .str.upper()# mayusculas
                            .str.replace("S","XXX")
                            .str.strip()
                            .str.title()
                           )
df[["Company Name","Company Name 2nd"]]

## Creación de columnas a partir de otras

In [None]:
df["Total income"]= df["Salary"]*df["Salaries Reported"] # columna total ingreso es resultado de multiplicar dos columnas
df[["Total income","Salary","Salaries Reported"]]

## Renombrar columnas

In [None]:
print(df.columns) # muetsreme nombre original de las variables
# renombrar columnas
df.rename(columns={"Rating":"Rate"},inplace=True) # renombre una de las variables
# inplace=True indica que aplique sobre el objeto sin necesidad de asignar
print(df.columns) # muestreme como quedo despues de renombrar

## Modificar tipo de dato de una columna

In [None]:
print(df.info())
print("\n")
df["Rate"]=df["Rate"].astype("str") # modificar el tipo de dato que tiene una columnas
print(df.info())

In [None]:
print(df.info())

## Eliminar filas

In [None]:
print("Antes : {0}.".format(df.shape))
# como borrar filas/columnas de un datframe
df = df.drop(df.iloc[0:3,].index) # drop : eliminar/borrar
print("Luego : {0}.".format(df.shape))

In [None]:
# eliminar duplicados
df.drop_duplicates(subset='Job Title' , inplace=False)

# Eliminar columnas

In [None]:
print("Antes : {0}.".format(df.shape))
# eliminar filas/columnas
df = df.drop(columns=['Employment Status'])
print("Luego : {0}.".format(df.shape))

## Ordenar dataframes

In [None]:
df.sort_values(["Salary"], ascending=False)

In [None]:
df.sort_values(["Salary"], ascending=True)

## tablas agregadas

In [None]:
# creamos un dataframe
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo","bar", "bar", "bar", "bar"],
                   "B": ["one", "one", "one", "two", "two","one", "one", "two", "two"],
                   "C": ["small", "large", "large", "small", "small", "large", "small", "small","large"],
                   "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
                   "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]})
# mostramos df
df

In [None]:
# utilizar la funcion groupby para agregar datos (pivot table/tablas dinamicas)
# agrupe por la columna C y haga la suma de todos los valores de la columna D y luego lo mismo para la E
# estoy sumando los valores D que son small 1+3+3+5+6 = 18
df.groupby('C')[['D', 'E']].sum() # agrupar por unas keys/columnas


In [None]:
# utilizar funcion pivot_table para agregar datos
pd.pivot_table(
    df, # dataframe
    values='D', # de donde toma los valores
    index=['A', 'B'], # filas
     columns=['C'], # columnas
     aggfunc=np.sum # y funcion a aplicar de numpy
     )

In [None]:
pd.pivot_table(
    df,
    values=['D', 'E'],
    index=['A', 'C'],
    aggfunc={
        'D': np.mean, # promedios
        'E': [min, max, np.mean] # promedio, max y minimo
        }
        )

## Exploración de datos

In [None]:
df = df_000.copy() # backup

In [None]:
df.describe()

In [None]:
# tablas contigencia
pd.crosstab(df.Location,df['Employment Status'])

In [None]:
# calculo de estadisticos por cada variable a seleccionar
p0=df.Salary.min()
p100=df.Salary.max()
q1=df.Salary.quantile(0.25)
q2=df.Salary.quantile(0.5)
q3=df.Salary.quantile(0.75)
InterQuartilRange = q3-q1
print(p0,p100,q1,q2,q3,InterQuartilRange)

In [None]:
df.Salary.hist()
plt.show()

In [None]:
plt.boxplot(df['Salary'])
plt.show()

In [None]:
# agrupar por la variable seleccionada y aplicar la funcion de interes(suma)
dataframe_plot = df.groupby('Employment Status').Salary.sum() # construyo datos
dataframe_plot.plot(kind = 'pie') # construyo grafica
plt.show() # muestro graficop

# df.groupby('Employment Status').Salary.sum().plot(kind='pie')
# plt.show()

In [None]:
# diagramas de dispersion
df.plot(x='Salaries Reported',y='Salary',kind = 'scatter')
plt.show()

In [None]:
# construir una matriz de correlacion
# esto solo aplica a variables numericas

# 1ro seleccionar variables numericas
dataframe_prueba = df.select_dtypes(['float64','int64'])
# 2do construir matriz correlacion (pearson) con las variables numericas
dataframe_prueba.corr()

In [None]:
# con seaborn construi matriz de correlacion visualmente mejorada
sns.heatmap(df.select_dtypes(['float64' , 'int64']).corr(),annot=True)
plt.show()

In [None]:
# diagramas de barras
df.groupby('Location').Salary.sum().plot(kind='bar') # haga un diagrama de barras con el resultado de agrupas y sumar
plt.show()

In [None]:
# barh para indicar que es horizontal
df.groupby('Location').Salary.sum().plot(kind='barh') # barh indica barras horizontales
plt.show()

In [None]:
summary=df.groupby('Location').Salary.sum()
plt.bar(x=summary.index , height=summary.values)
plt.rcParams["figure.figsize"] = (20,15)
plt.show()

In [None]:
summary=df.groupby('Location').Salary.sum()
sns.barplot(x=summary.index , y=summary.values)
plt.rcParams["figure.figsize"] = (10,6)
plt.show()

In [None]:
df.columns

In [None]:
# una linea de puntas
df.groupby('Salaries Reported').Salary.sum().plot(kind='line') # hace un grafico linea
plt.rcParams["figure.figsize"] = (10,6)
plt.show()

In [None]:
df.groupby('Location').Salary.sum().plot(kind='pie')
plt.rcParams["figure.figsize"] = (15,6)
plt.show()

In [None]:
pd.crosstab(df.Location,df['Employment Status'])

In [None]:
# construi un heatmap una diagram de calor
# preparar datos antes de visualizacion
tab_00 = pd.crosstab(df.Location,df['Employment Status'])
# usar datros preparados para plotear graficar
sns.heatmap(tab_00)
plt.show()

## Bibliografía


* (2022,Montenegro y Montenegro) Aprendizaje profundo. Diplomado de IA y AP.
* BeginnersGuide. link :https://wiki.python.org/moin/BeginnersGuide/Programmers
* Uniwebsidad. link :https://uniwebsidad.com/libros/algoritmos-python