<h1>Pandas Package</h1>
<p>
    Es imposible hablar Python y no escuchar también la palabra Pandas. Por lo general esta biblioteca es muy utilizada al momento de trabajar con Python, por lo fácil que resulta manipular datos con ella e incluso visualizarlos de manera mucho más comoda, ya sea por tablas o gráficos. Si bien, la cantidad de herramientas que ofrece son muchas, nos enfocaremos principalmente en los Dataframes, la lectura y escritura de archivos y los gráficos (que será revisado en otra sección).
</p>

<h2>Antes de comenzar</h2>

<h3>Instalar Pandas</h3>
<p>
    Antes de comenzar y trabajar con Pandas, lo primero y más importante es instalar Pandas. Para esto, lo único que se necesita es tener acceso a internet y ejecutar el siguiente comando en la terminal que ofrece tu sistema operativo:
</p>
<code>pip install --user --upgrade pandas</code>
<br /><br />
<p>
    Esto se puede realizar desde cualquier equipo con Python instalado (Windows, Linux MacOS). Tomará un par de minutos y una vez haya finalizado.
</p>

<h3>Invocar Pandas</h3>
<p>
    Para comenzar a usar Pandas en el código, primer lo debemos llamar, para esto se puede utilizar el comando <code>import</code>, que permite importar una biblioteca, y <code>as</code> para asignar una etiqueta al paquete y sea mucho más simple trabajar con él. A continuación, se encuentra la línea de código para lograr esto (y que debemos ejecutar si queremos trabajar con ella).
</p>

In [1]:
## Invocar biblioteca de Pandas (vital para poder continuar trabajando)
import pandas as pd

<p>
    Ya habiendo echo todo esto, podemos comenzar a trabajar.
</p>

<center><img src="https://media1.giphy.com/media/m9NW0LaKiJVch1L5Qp/giphy.gif?cid=ecf05e47mmxrjoq9yj15e4jpsnfmobi0bfh94w7hcutf37e0&rid=giphy.gif&ct=g"></center>

<h2>Pandas DataFrames</h2>
<h3>Mi Primer DataFrame</h3>
<p>
    Un Dataframe se describe como datos tabulados de dos dimensiones, que se construye con columnas y filas. Existen muchos métodos para crear un DataFrame, puede ser leyendo un archivo, a partir de una variable en Python e incluso contruir una tabla vacía. A continuación, se enseñará como crear un DataFrame desde cero.
</p>

In [11]:
# Con este comando generamos un DataFrame completante vacío
df = pd.DataFrame()
# Se puede imprimir el DataFrame con "print()", pero se aprecia mucho mejor si se utiliza "display()"
display(df)

<h3>Crear campos y filas</h3>
<p>
    A partir de este DataFrame vacío, nosotros podemos agregar nueva información, tanto nuevas columnas como nuevas filas. Supongamos que en esta tabla queremos almacenar los ramos de un estudiante y sus calificación. La forma en la que esto se logra es como se muestra a continuación:
</p>

In [12]:
# "df[]" hace referencia a un campo de la tabla, en el que se pueden asignar valores. Si este no existe se crea.
# La lista entregada son los valores que irán en cada fila. En este caso se crearán 6 filas, una con cada valor.
df["Asignatura"] = ["Matemáticas", "Lenguaje", "Historia", "Ciencias", "Música", "Artes"]
display(df)

Unnamed: 0,Asignatura
0,Matemáticas
1,Lenguaje
2,Historia
3,Ciencias
4,Música
5,Artes


In [13]:
# Adicionalmente se crea otro campo y se entregan 6 valores igualmente.
df["Nota promedio"] = [6.3, 3.1, 3.8, 7.0, 6.8, 2.7]
display(df)

Unnamed: 0,Asignatura,Nota promedio
0,Matemáticas,6.3
1,Lenguaje,3.1
2,Historia,3.8
3,Ciencias,7.0
4,Música,6.8
5,Artes,2.7


<p>
    Podemos notar como la tabla va cambiando a medida que se entregan nuevos campos. Cada columna nueva se adjunta a la derecha y cada nueva fila abajo de la tabla.
</p>

<h3>Asignar a una porción del DataFrame</h3>
<p>
    Ahora, supongamos que deseamos agregar el porcentaje de asistencia del estudiante a cada una de las asignaturas, pero solo conocemos los primeros 5. Intentemos asignar estos 5 valores a un nuevo campo.
</p>

In [14]:
# Asignación de 5 valores a la tabla que ya modificacmos anteriormente.
df["Asistencia"] = [0.98, 0.91, 0.73, 0.85, 0.66]

ValueError: Length of values (5) does not match length of index (6)

<p>
    Tal como se observa, el DataFrame requiere que se entregue una lista que contenga la misma cantidad de elementos que el número de filas que este posee. En el ejemplo anterior, si quisieramos agregar solo estos 5 valores, deberiamos ejecutar el siguiente comando.
</p>

In [17]:
# Asignación de 5 valores a la tabla que ya modificacmos anteriormente, esta vez agregando el último como un valor nulo.
df["Asistencia"] = [0.98, 0.91, 0.73, 0.85, 0.66, None]
display(df)

Unnamed: 0,Asignatura,Nota promedio,Asistencia
0,Matemáticas,6.3,0.98
1,Lenguaje,3.1,0.91
2,Historia,3.8,0.73
3,Ciencias,7.0,0.85
4,Música,6.8,0.66
5,Artes,2.7,


<p>
    De esta forma asignamos los valores que se requerían en cada una de sus respectivas filas.
</p>
<h3>Filtrar DataFrame</h3>
<p>
    Ahora necesitamos conocer las asignaturas en las que el estudiante obtuvo un promedio superior o igual a 4.0. Para esto, conocemos el filtro que debemos aplicar. Si queremos filtrar nuestro DataFrame para extraer esta información, debemos ejecutar la siguiente línea:
</p>

In [18]:
# Primero asignaremos la condición en una variable para entender como funciona
condicion = df["Nota promedio"] >= 4
display(condicion)

0     True
1    False
2    False
3     True
4     True
5    False
Name: Nota promedio, dtype: bool

In [19]:
# Luego se entrega esta condición como parámetro al DataFrame quien devuelve las filas que cumplan con el criterio.
df_nota4 = df[condicion]
display(df_nota4)

Unnamed: 0,Asignatura,Nota promedio,Asistencia
0,Matemáticas,6.3,0.98
3,Ciencias,7.0,0.85
4,Música,6.8,0.66


In [20]:
# Se define la condición a parte para entender la idea, pero por lo general se escribe todo junto en una sola línea.
df_nota4 = df[df["Nota promedio"] >= 4]
display(df_nota4)

Unnamed: 0,Asignatura,Nota promedio,Asistencia
0,Matemáticas,6.3,0.98
3,Ciencias,7.0,0.85
4,Música,6.8,0.66


<p>
    Para filtrar, el campo al que se desee aplicar la condición se debe invocar de la misma forma como asignamos valores anteriormente, es decir, <code>df["CAMPO"] {condicion} [VALOR]</code>. Esto devuelve una lista de verdadedores y falsos, de acuerdo a cada fila que cumpla o no con el criterio definido. Esta lista es entragada al mismo DataFrame quien devuelve cada fila en que el valor es <code>True</code>.
</p>
<h3>Asignar valor a una fila en específico</h3>
<p>
    Supongamos que ya conocemos cual es el porcentaje de asistencia del estudiante para la asignatura de "Artes". Podemos apoyarnos en los mismos filtros, para traer solo el registro relacionado a "Artes" y asignar el valor que corresponda en el campo de "Asistencia".
</p>

In [26]:
df[df["Asignatura"] == "Artes"][["Nota promedio", "Asistencia"]]

Unnamed: 0,Nota promedio,Asistencia
5,2.7,


In [28]:
# Con df.loc[] podemos ubicarnos en una porción del DataFrame y trabajar sobre él, como asignar nuevos valores.
# Después de la coma se agrega el campo en el que se desee hacer los cambios.
df.loc[df["Asignatura"] == "Artes", "Asistencia"] = 0.82
display(df)

Unnamed: 0,Asignatura,Nota promedio,Asistencia
0,Matemáticas,6.3,0.98
1,Lenguaje,3.1,0.91
2,Historia,3.8,0.73
3,Ciencias,7.0,0.85
4,Música,6.8,0.66
5,Artes,2.7,0.82


<p>
    En este caso, se debe utilizar la función <code>loc()</code> para realizar trabajos sobre una porción de nuestro DataFrame, se aplica el filtro tal como vimos anterior y, separado por una <code>,</code>, se ubica el campo en el que se desea asignar el valor.
</p>
<h3>Multiples filtros</h3>
<p>
    Podemos filtrar por más de una condición usando distintos conectores lógicos, de la misma forma que se usa el <code>IF-ELSE</code>. Para entenderlo bien, utilizaremos los siguientes ejemplos.
</p>
<p>
    Se considera que un alumno ha reprobado el ramo cuando ha obtenido una calificación menor a 4.0 o ha tenido una asistencia menor al 75%. Para esto crearemos un nuevo campo donde asignaremos la etiqueta de "Reprobado" si cumple con esta condición.
</p>

In [29]:
df[(df["Nota promedio"] < 4) | (df["Asistencia"] < 0.75)]

Unnamed: 0,Asignatura,Nota promedio,Asistencia
1,Lenguaje,3.1,0.91
2,Historia,3.8,0.73
4,Música,6.8,0.66
5,Artes,2.7,0.82


In [30]:
# Las condiciones se escriben en parentesis y, dado que en este caso la condición es
# que tenga nota menor a 4 Ó asistencia menor al 75% se utiliza "|"
df.loc[(df["Nota promedio"] < 4) | (df["Asistencia"] < 0.75), "Estado"] = "Reprobado"
display(df)

Unnamed: 0,Asignatura,Nota promedio,Asistencia,Estado
0,Matemáticas,6.3,0.98,
1,Lenguaje,3.1,0.91,Reprobado
2,Historia,3.8,0.73,Reprobado
3,Ciencias,7.0,0.85,
4,Música,6.8,0.66,Reprobado
5,Artes,2.7,0.82,Reprobado


<p>
    De esta forma, utilizamos las dos condiciones, con el conector lógico que corresponda para asignar el valor.
</p>
<p>
    Ahora intentaremos identificar a los alumnos que se destacaron por su nota (mayor o igual a 6) y que hayan tenido una alta asistencia (mayor o igual a 90%). Para esto repetiremos lo que se hizo en el caso anterior y asignaremos la etiqueta de "Destacado" al campo recién creado.
</p>

In [36]:
df[(df["Nota promedio"] >= 6) & (df["Asistencia"] >= 0.9)]

df_test = df[df["Nota promedio"] >= 6]
df_test = df_test[df_test["Asistencia"] >= 0.9]

display(df_test)

Unnamed: 0,Asignatura,Nota promedio,Asistencia,Estado
0,Matemáticas,6.3,0.98,Destacado


In [33]:
# Las condiciones se escriben en parentesis y, dado que en este caso la condición es
# que tenga nota mayor o igual a 6.0 Y asistencia mayor o igual al 90% se utiliza "&"
df.loc[(df["Nota promedio"] >= 6) & (df["Asistencia"] >= 0.9), "Estado"] = "Destacado"
display(df)

Unnamed: 0,Asignatura,Nota promedio,Asistencia,Estado
0,Matemáticas,6.3,0.98,Destacado
1,Lenguaje,3.1,0.91,Reprobado
2,Historia,3.8,0.73,Reprobado
3,Ciencias,7.0,0.85,
4,Música,6.8,0.66,Reprobado
5,Artes,2.7,0.82,Reprobado


<p>
    Por último, solo nos queda asignar una etiqueta a los casos que faltan, que son aquellos alumnos que lograron aprobar el ramo. Para podríamos reutilizar uno de los filtros anterior (cambiandolo para que sea el caso contrario) o, lo que se hará en este caso, buscar todos los registros nulos en el campo de "Estado" y cambiarlos por "Aprobado". Esto se consigue de la siguiente forma:
</p>

In [34]:
df[df["Estado"].isnull()]

Unnamed: 0,Asignatura,Nota promedio,Asistencia,Estado
3,Ciencias,7.0,0.85,


In [35]:
# Para filtrar un campo y traiga todas sus filas donde un campo sea nulo se utiliza el comando "isnull()"
df.loc[df["Estado"].isnull(), "Estado"] = "Aprobado"
display(df)

Unnamed: 0,Asignatura,Nota promedio,Asistencia,Estado
0,Matemáticas,6.3,0.98,Destacado
1,Lenguaje,3.1,0.91,Reprobado
2,Historia,3.8,0.73,Reprobado
3,Ciencias,7.0,0.85,Aprobado
4,Música,6.8,0.66,Reprobado
5,Artes,2.7,0.82,Reprobado


<p>
    Ya con toda la información lista, lo último que se necesita es conocer cuales son las asignaturas que aprobó el estudiantes ("Aprobado" y "Destacado"). Existen tres formas con las que podamos lograr esto:
</p>
<h3>Uso de negación</h3>
<p>
    Se puede anteponer <code>~</code> para negar una condición, es decir, se invierte su resultado, si es <code>True</code> pasa a ser <code>False</code> y viceversa.
</p>

In [38]:
# En este caso, al anteponer "~" significaría que se buscan aquellos registros que no sean iguales a "Repobrado"
df_aprobados = df[~(df["Estado"] == "Reprobado")]
display(df_aprobados)

Unnamed: 0,Asignatura,Nota promedio,Asistencia,Estado
0,Matemáticas,6.3,0.98,Destacado
3,Ciencias,7.0,0.85,Aprobado


<h3>Distinto</h3>
<p>
    Se puede utilizar un simbolo opuesto al igual, que sería el <code>!=</code>. Se expresa de la siguiente forma.
</p>

In [39]:
df_aprobados = df[df["Estado"] != "Reprobado"]
display(df_aprobados)

Unnamed: 0,Asignatura,Nota promedio,Asistencia,Estado
0,Matemáticas,6.3,0.98,Destacado
3,Ciencias,7.0,0.85,Aprobado


<h3>Pertenece a una lista</h3>
<p>
    En lugar de pedir los valores distintos a "Reprobado" también podríamos pedir los que sean "Destacado" o "Aprobador". Para esto nos puede ayudar la función "isin([])", donde dentro de esta se entrega una lista con los valores que queremos traer de la tabla.
</p>

In [40]:
lista = ["Aprobado", "Destacado"]
df_aprobados = df[df["Estado"].isin(lista)]
display(df_aprobados)

Unnamed: 0,Asignatura,Nota promedio,Asistencia,Estado
0,Matemáticas,6.3,0.98,Destacado
3,Ciencias,7.0,0.85,Aprobado


<h3>Funciones adicionales</h3>
<p>
    Existen una serie de funciones adicionales para trabajar con DataFrames. A continuación, se entrega alguna de ellas.
</p>
<h4>DataFrame.columns</h4>

In [41]:
# Función que permite obtener nombres de campo
print(df.columns)

Index(['Asignatura', 'Nota promedio', 'Asistencia', 'Estado'], dtype='object')


In [42]:
#También se pueden cambiar los nombres de las columnas llamando a esta función y asignando una lista con los nuevos
df.columns = ["asignatura", "nota_promedio", "asistencia", "estado"]
print(df.columns)

Index(['asignatura', 'nota_promedio', 'asistencia', 'estado'], dtype='object')


<h4>DataFrame.dtypes</h4>
<p>
    Devuelve el tipo de cada uno de los campos.
</p>

In [44]:
print(df.dtypes)

asignatura        object
nota_promedio    float64
asistencia       float64
estado            object
dtype: object


<h4>DataFrame.iat</h4>
<p>
    Permite acceder a un valor del DataFrame ingresando por medio de sus indices de fila y columnas de la forma <code>iat[fila, columna]</code>. La posición siempre comienza en 0.
</p>

In [45]:
df

Unnamed: 0,asignatura,nota_promedio,asistencia,estado
0,Matemáticas,6.3,0.98,Destacado
1,Lenguaje,3.1,0.91,Reprobado
2,Historia,3.8,0.73,Reprobado
3,Ciencias,7.0,0.85,Aprobado
4,Música,6.8,0.66,Reprobado
5,Artes,2.7,0.82,Reprobado


In [46]:
# iat[1, 1]
row = 1
col = 1
print("El valor encontrado en la fila " + str(row) + " y columnas " + str(col) + " es: " + str(df.iat[row,col]))

El valor encontrado en la fila 1 y columnas 1 es: 3.1


In [47]:
# iat[3, 2]
row = 3
col = 2
print("El valor encontrado en la fila " + str(row) + " y columnas " + str(col) + " es: " + str(df.iat[row,col]))

El valor encontrado en la fila 3 y columnas 2 es: 0.85


In [49]:
# iat[4, 3]
row = 4
col = 3
print("El valor encontrado en la fila " + str(row) + " y columnas " + str(col) + " es: " + str(df.iat[row,col]))

El valor encontrado en la fila 4 y columnas 3 es: Reprobado


<h4>DataFrame.shape</h4>
<p>Comando que devuelve las dimensiones de la tabla, es decir, número de filas y columnas.</p>

In [50]:
print(df.shape)

(6, 4)
