#### Indexación y carga de dataframes

In [None]:
import pandas as pd

In [None]:
# Los Jupyter Notebooks usan IPython, como kernel. Esto nos proporciona formas de integrar
# comandos de shell que se ejecutarán en el sistema operativo. Esto es muy util para la 
# integración del flujo de trabajo. Para ejecutar comandos del shell ponemos el código 
# precedido de !. cat simplemente abrer el archivo lo que nos permitira echarle un vistazo
!cat ../datasets/Admission_Predict.csv

In [6]:
# como podemos ver en la salida anterior, tenemos una lista de columnas con un string
# como identificador. Tenemos filas de datos y todas las columnas estan separadas por comas

# con el metodo read_csv() de pandas tambien podemos leer el archivo y convertirlo en un
# dataframe
dataframe = pd. read_csv("../datasets/Admission_Predict.csv")

# con .head() podemos ver las primeras filas del dataframe
dataframe.head()

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


In [7]:
# podemos observar que el indice empieza por 0 (esto es asignado por pandas), pero 
# tenemos otra columna llamada "Serial No." que era el indice en el archivo original

# con el parametro index_col= podemos especificarle que columna actuará de indice
dataframe = pd. read_csv("../datasets/Admission_Predict.csv", index_col=0)
dataframe.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [14]:
# podemos cambiar el nombre de las columnas con .rename(), la función tiene un parametro
# columns= que nos permite pasarle un diccionario donde las keys serán los valores antiguos 
# y los values los nuevos
nuevo_dataframe = dataframe.rename(columns={"GRE Score":"GRE Score", 
                                            "TOEFL Score":"TOEFL Score",
                                            "University Ratting":"University Ratting", 
                                            "SOP":"Statement of Purpose",
                                            "LOR": "Letter of Recommendation",
                                            "CGPA":"CGPA", 
                                            "Research":"Research",
                                            "Chance of Admit":"Chance of Admit"}) 
nuevo_dataframe.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [15]:
# como podemos observar SOP ha cambiado pero LOR sigue igual, vamos a ver porque. Podemos
# usar el atributo columns para obtener una lista de los nombres de las columnas
nuevo_dataframe.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'Statement of Purpose',
       'LOR ', 'CGPA', 'Research', 'Chance of Admit '],
      dtype='object')

In [16]:
# la salida anterior nos muestra que "LOR " tiene un espacio al final, al igual que 
# "Chance of Admit ". Esto esta haciendo que rename no encuentre las columnas. Podemos 
# solventar este problema pasando el espacion en la clave
nuevo_dataframe = nuevo_dataframe.rename(columns={"LOR ":"Letter of Recomendation"})
nuevo_dataframe.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recomendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [19]:
# una manera más optima de solucionar este problema es crear una función que haga
# la limpieza y luego hacer el rename()

# python cuenta con una función strip() que elimina espacios en blanco, tenemos que
# pasar la función en el parametro mapper= y el eje seran las columnas
nuevo_dataframe = nuevo_dataframe.rename(mapper=str.strip, axis="columns")
nuevo_dataframe.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'Statement of Purpose',
       'Letter of Recomendation', 'CGPA', 'Research', 'Chance of Admit'],
      dtype='object')

In [21]:
# tambien podemos usar el atributo columns pasandole una lista de nombres, lo 
# que renombrará las columnas directamente. columns modificará el dataframe original

# creamos una lista con las columnas
cols = list(dataframe.columns)

# pasamos todo a minusculas y quitamos espacios en blanco con una compresion de lista
cols = [x.lower().strip() for x in cols]

# renombramos las columnas
dataframe.columns=cols
dataframe.head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65
