# Librería Pandas (tipos de dato)

En esta libreta se presenta una introducción a la librería Pandas. Al igual que Numpy, Pandas provee nuevos tipo de dato (principalmente, el objeto <code>Series</code> y el <code>DataFrame</code>, y todo un ecosistema de funciones alrededor de éstos. A pesar de que pueda parecer una contribución menor, Pandas cambia completamente el flujo de trabajo con datos en Python, haciéndolo mucho más intuitivo y fácil. Internamente, Pandas utiliza los mecanismos de Numpy, heredando por tanto su eficiencia.

Mientras Numpy es la base de muchas librerías que usaremos en este curso, Pandas es la base de todo nuestro flujo de trabajo. Mayoritariamente, cargaremos nuestros datos en un objeto de Pandas sobre el que realizaremos las distintas tareas de análisis de datos.

---

# Índice
[El objeto Series](#El-objeto-Series) <br/>
&nbsp;&nbsp;&nbsp;&nbsp; [Operaciones sobre Series](#Operaciones-sobre-Series) <br/>
[El objeto DataFrame](#El-objeto-DataFrame) <br/>
&nbsp;&nbsp;&nbsp;&nbsp; [Añadir y quitar columnas/filas](#Añadir-y-quitar-columnas/filas) <br/>
&nbsp;&nbsp;&nbsp;&nbsp; [Operaciones sobre DataFrames](#Operaciones-sobre-DataFrames) <br/>
[Conclusiones](#Conclusiones) <br/>

---

In [1]:
import pandas as pd   #Nuevo: librería Pandas

## El objeto <code>Series</code>

El objeto <code>Series</code> representa un array de datos ordenados. Posee dos elementos: el array de datos, y el array de índice. Ambos pueden contener casi cualquier tipo de datos (enteros, decimales, cadenas, etc.), con la salvedad de que en el índice no puede haber elementos repetidos. Podemos declarar un objeto <code>Series</code> de varias maneras. La más sencilla es con una lista de valores predeterminados:

In [2]:
s = pd.Series([0.1, 1.2, 7.1, 3.3, 6.3, 2.3, 9.2])
print(s)

0    0.1
1    1.2
2    7.1
3    3.3
4    6.3
5    2.3
6    9.2
dtype: float64


En este caso, se genera un índice de enteros de forma automática. Podemos acceder a los elementos de la serie de diversas formas. La primera es el indexado ya utilizado en listas:

In [3]:
print("Tercer valor")
print(s[2])

print("Primeros dos valores de la serie:")
print(s[:2])

print("Últimos valores de la serie a partir del quinto (posición 4):")
print(s[4:])

print("Valores entre el cuarto (posición 3) y el quinto:")
print(s[3:5])

Tercer valor
7.1
Primeros dos valores de la serie:
0    0.1
1    1.2
dtype: float64
Últimos valores de la serie a partir del quinto (posición 4):
4    6.3
5    2.3
6    9.2
dtype: float64
Valores entre el cuarto (posición 3) y el quinto:
3    3.3
4    6.3
dtype: float64


Esta forma no es muy recomendable con los objetos de Pandas, dado que en algunos casos (cuando el índice no son números enteros iniciados en 0) puede ser un poco ambigua. La forma recomendable es usando las siguientes propiedades del objeto <code>Series</code>:
- <code>.loc[k]</code>: devuelve el elemento situado en el índice <code>k</code>, donde <code>k</code> es del tipo usado en el índice.
- <code>.iloc[i]</code>: devuelve el elemento situado en la posición <code>i</code>, donde <code>i</code> es un entero, empezando en 0 para la primera posición.

En este caso, dado que el índice es de enteros inciados en cero, ambas funciones son equivalentes. 

La propiedad <code>.iloc</code>, se usa exactamente de la misma manera que el indexado de listas:

In [4]:
print("Tercer valor")
print(s.iloc[2])

print("Primeros dos valores de la serie:")
print(s.iloc[:2])

print("Últimos valores de la serie a partir del quinto (posición 4):")
print(s.iloc[4:])

print("Valores entre el cuarto (posición 3) y el quinto:")
print(s.iloc[3:5])



Tercer valor
7.1
Primeros dos valores de la serie:
0    0.1
1    1.2
dtype: float64
Últimos valores de la serie a partir del quinto (posición 4):
4    6.3
5    2.3
6    9.2
dtype: float64
Valores entre el cuarto (posición 3) y el quinto:
3    3.3
4    6.3
dtype: float64


Para ver la propiedad <code>.loc</code>, generaremos antes una serie con un índice formado por caracteres:

In [5]:
nombres = pd.Series(['Ana', 'Borja', 'Cristina', 'Daniel', 'Estefanía', 'Francisco'], 
                    index=['a','b','c','d','e','f'])
print(nombres)

a          Ana
b        Borja
c     Cristina
d       Daniel
e    Estefanía
f    Francisco
dtype: object


In [6]:
# print("Valor en la posición c")
# print(nombres.loc['c'])

# print("Primeros dos valores de la serie:")
# print(nombres.loc[:'b'])

# print("Últimos valores de la serie:")
# print(nombres.loc['d':])

# print("Valores entre c y e")
# print(nombres.loc['c':'e'])


A diferencia del indexado en listas y con <code>.iloc</code>, con <code>.loc</code> los límites superiores de los intervalos están incluidos en los resultados.

Del mismo modo, podemos modificar valores concretos de una serie:

In [7]:
nombres.loc['a'] = "Ainhoa"
nombres.loc['d':'f'] = ["David", "Esperanza", "Felipe"]
print(nombres)

a       Ainhoa
b        Borja
c     Cristina
d        David
e    Esperanza
f       Felipe
dtype: object


También podemos acceder a los elementos del índice con la propiedad <code>.index</code>, que se comporta como una lista:

In [8]:
nombres.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [9]:
nombres.index[3:]

Index(['d', 'e', 'f'], dtype='object')

<div style="background-color:lightpink; padding:1em"><p><b>Ejercicio 1</b><br/>
    Defina la siguiente serie de datos con un índice de enteros y cadenas de caracteres como valores: <br/>
</p>
    <table> 
        <tr><th>Índice</th><th>Valores</th></tr>
        <tr><td>10</td><td>X</td></tr>
        <tr><td>20</td><td>XX</td></tr>
        <tr><td>30</td><td>XXX</td></tr>
        <tr><td>40</td><td>XL</td></tr>
        <tr><td>50</td><td>L</td></tr>
    </table>
    
</div>

Aquí hemos visto lo básico para generar series. Volveremos a verlas de forma recurrente.

### Operaciones sobre <code>Series</code>

Con Pandas, almacenamos datos en <code>Series</code> para facilitarnos la vida a la hora de hacer cálculos con los datos. De este modo, operaciones como la <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.sum.html">suma<a>:

In [10]:
s.sum()

29.5

la <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.mean.html">media</a>:

In [11]:
s.mean()

4.214285714285714

o el cálculo de los <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.quantile.html">percentiles</a>:

In [12]:
s.quantile(0.9)

7.94

es muy sencillo. En <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.html">la documentación de <code>Series</code></a> tenemos una lista eshaustiva de todos los métodos que nos permiten hacer cálculos.

También podemos hacer operaciones con varias series:

In [13]:
s2 = pd.Series([1, 1, 3, 2, 2, 1, 3])
print(s)
print(s+s2)

0    0.1
1    1.2
2    7.1
3    3.3
4    6.3
5    2.3
6    9.2
dtype: float64
0     1.1
1     2.2
2    10.1
3     5.3
4     8.3
5     3.3
6    12.2
dtype: float64


In [14]:
s * s2

0     0.1
1     1.2
2    21.3
3     6.6
4    12.6
5     2.3
6    27.6
dtype: float64

In [15]:
s - s2

0   -0.9
1    0.2
2    4.1
3    1.3
4    4.3
5    1.3
6    6.2
dtype: float64

Estas operaciones deben hacerse con series del mismo tamaño, ya que la operación se hace con los elementos uno a uno. Si uno de los dos es más corto, se rellenará con valores nulos. Si sabemos bien lo que hacemos, no hay problemas; pero hay que tener cuidado dado que no salta ningún error. Podemos aplicar también un escalado:

In [16]:
3 * s

0     0.3
1     3.6
2    21.3
3     9.9
4    18.9
5     6.9
6    27.6
dtype: float64

Veamos algunos métodos más de <code>Series</code> que nos pueden venir bien en el futuro. Podemos obtener los valores distintos que hay en una serie:

In [17]:
print(s2)
s2.unique()

0    1
1    1
2    3
3    2
4    2
5    1
6    3
dtype: int64


array([1, 3, 2], dtype=int64)

y realizar un conteo de las ocurrencias de cada valor:

In [18]:
s2.value_counts()

1    3
3    2
2    2
dtype: int64

Veamos ahora operaciones que utilizaremos de forma recurrente en análisis de datos. La siguiente nos servirá para infinidad de problemas, entre ellos para preprocesar los datos. Se trata del método <code>apply()</code>, que aplica una función para cada uno de los valores de una serie.

<img src="apply.png" style="width:30em; margin: 0 auto;"/>

Esta función la aplicaremos siempre que queramos realizar una operación sobre los valores de una serie una a una, sin necesidad de usar valores de otras entradas de la serie. Esta situación se dará muy a menudo, y sustituye a un bucle que recorra la serie. A este método, le tendremos que pasar la función a aplicar, que deberá tener un parámetro. Devolverá un objeto <code>Series</code> con el mismo índice y los valores calculados para cada entrada. Veamos un ejemplo con números:

In [19]:
def elevar_cuadrado(x):
    return x**2

s2.apply( elevar_cuadrado )

0    1
1    1
2    9
3    4
4    4
5    1
6    9
dtype: int64

Esta función que hemos aplicado ilustra bien el funcionamiento numérico. No obstante, en Pandas, la mayoría de las operaciones matemáticas se pueden hacer directamente con el <code>Series</code> y se aplicarán elemento a elemento. En otras palabras, podríamos haber elevado los valores de <code>s2</code> al cuadrado de la siguiente manera:

In [20]:
s2**2

0    1
1    1
2    9
3    4
4    4
5    1
6    9
dtype: int64

Otro ejemplo de <code>apply()</code> es para una serie de cadenas:

In [21]:
print(nombres)
def minusculas(cadena):
    return cadena.lower()

nombres.apply( minusculas )

a       Ainhoa
b        Borja
c     Cristina
d        David
e    Esperanza
f       Felipe
dtype: object


a       ainhoa
b        borja
c     cristina
d        david
e    esperanza
f       felipe
dtype: object

<p style="background-color:lightpink; padding:1em"><b>Ejercicio 2</b><br/>
    Defina una función que, dado un número entero entre 1 y 5, devuelva una cadena con su valor en números romanos. Aplique dicha función a la serie <code>s2</code>.
</p>

<code>apply</code> sirve para aplicar funciones a valores independientes unos de otros, pero ¿qué pasa si queremos aplicar una función que depende de los valores de entradas anteriores o posteriores? Para ello, tenemos el método <code>rolling()</code>, que crea una ventana deslizante (<a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.rolling.html">detalles</a>). El método <code>rolling()</code> devuelve a su vez una especie de <code>Series</code> donde cada entrada, en lugar de ser un único valor, es, a su vez, un <code>Series</code>, que contiene el valor actual (última posición en la ventana), el anterior (antepenúltima), y así sucesivamente hasta completar el tamaño de la ventana. 

<img src="rolling.png" style="width:30em; margin: 0 auto;"/>

Si la ventana es de tamaño $N$, se devuelve valores vacíos para las $N-1$ primeras entradas de la serie. Con el enventanado, podemos calcular, por ejemplo, las sumas dos a dos de las variables:

In [22]:
print(s)
s.rolling(2).sum() #suma los dos primeros valores

0    0.1
1    1.2
2    7.1
3    3.3
4    6.3
5    2.3
6    9.2
dtype: float64


0     NaN
1     1.3
2     8.3
3    10.4
4     9.6
5     8.6
6    11.5
dtype: float64

Como podemos ver, nos devuelve para la segunda posición, la suma de la primera y la segunda; para la tercera, la suma de la tercera y la segunda, y así sucesivamente. También podemos crear nuestra propia función. Por ejemplo, para un <a href="https://es.wikipedia.org/wiki/FIR_(Finite_Impulse_Response)">filtro FIR</a>, que usa una combinación lineal de la entrada actual con las anteriores, muy usado en procesado de señales, la función podría ser, por ejemplo, la siguiente:

In [23]:
def fir(x):
    return x.iloc[-1] + 0.5*x.iloc[-2] + 0.25*x.iloc[-3]

Nótese el uso de <code>iloc</code> en lugar de <code>loc</code>, ya que en el <code>Series</code> generado como ventana, cada valor tendrá su índice original.

In [24]:
s.rolling(3).apply( fir )

0       NaN
1       NaN
2     7.725
3     7.150
4     9.725
5     6.275
6    11.925
dtype: float64

<p style="background-color:lightpink; padding:1em"><b>Ejercicio 3</b><br/>
    Sobre <code>s2</code> aplique una ventana deslizante de tamaño 2 y calcule, para cada posición, la diferencia entre el elemento actual y el anterior (diferenciación).
</p>

En el caso de la diferenciación, al ser una operación muy común, Pandas provee el método <code>diff()</code>:

In [25]:
s2.diff()

0    NaN
1    0.0
2    2.0
3   -1.0
4    0.0
5   -1.0
6    2.0
dtype: float64

Con esto, completamos la introducción al objeto <code>Series</code> y todo lo que permite hacer. Como se puede ver, es un contenedor ideal para aplicar procesados de distinto tipo sobre una serie de datos. Pero raramente tendremos que hacer análisis de datos con valores de una única variable.

## El objeto <code>DataFrame</code>

Ahora que conocemos el objeto <code>Series</code>, es muy fácil explicar el objeto <code>DataFrame</code>: es un grupo de <code>Series</code> que comparten un único índice. Cada <code>Series</code> de un <code>DataFrame</code> conforma una columna, y el conjunto de los valores que comparten el mismo valor de índice, es una fila. Cada columna puede tener datos de distinto tipo. Otra forma muy útil de ver un <code>DataFrame</code> es imaginarlo como una hoja de cálculo, con sus filas y sus columnas. Hay más de una forma de trabajar con objetos <code>DataFrame</code>, e iremos viéndolas a lo largo del curso. Alrededor del objeto <code>DataFrame</code>, Pandas construye toda una constelación de funcionalidades, como son la lectura y escritura de ficheros en disco y bases de datos, aplicación de operaciones matemáticas de forma eficiente, cálculo de estadísticas, representación visual, etc. Por eso, es una herramienta muy útil como soporte de los datos a lo largo de toda la cadena de operaciones 

Supongamos que tenemos la siguiente tabla con datos de alumnos:

<table>
    <tr><th>Índice</th><th>Nombre</th><th>Edad</th><th>Matriculado</th></tr>
    <tr><td>0</td><td>Antonio</td><td>22</td><td>No</td></tr>
    <tr><td>1</td><td>Berta</td><td>43</td><td>Sí</td></tr>
    <tr><td>2</td><td>Carlos</td><td>24</td><td>Sí</td></tr>
    <tr><td>3</td><td>Diana</td><td>34</td><td>No</td></tr>
    <tr><td>4</td><td>Esteban</td><td>33</td><td>Sí</td></tr>
</table>

Veamos cómo podemos generar un <code>DataFrame</code> con estos datos. La primera forma, es generar primero el <code>DataFrame</code> y rellenar los datos fila a fila:

In [26]:
alumnos = pd.DataFrame(index=[0,1,2,3,4], 
                       columns=["Nombre", "Edad", "Matriculado"])
print(alumnos)

  Nombre Edad Matriculado
0    NaN  NaN         NaN
1    NaN  NaN         NaN
2    NaN  NaN         NaN
3    NaN  NaN         NaN
4    NaN  NaN         NaN


En este momento, la tabla está vacía (NaN=Not a Number). Para poder rellenarlo, tenemos que saber que las propiedades <code>.loc</code> e <code>.iloc</code> introducidas antes, también se usan en los <code>DataFrame</code>. En este caso, el indexado es bidimensional, siendo la primera dimensión el índice (o fila), y la segunda, la columna. Por tanto, para rellenar la primera fila, haremos lo siguiente:

In [27]:
alumnos.loc[0,"Nombre"] = "Antonio"
alumnos.loc[0,"Edad"] = 22
alumnos.loc[0,"Matriculado"] = False

print(alumnos)

    Nombre Edad Matriculado
0  Antonio   22       False
1      NaN  NaN         NaN
2      NaN  NaN         NaN
3      NaN  NaN         NaN
4      NaN  NaN         NaN


Pandas provee una gran flexibilidad a la hora de asignar y recuperar valores de un <code>DataFrame</code>. Podemos sustituir cualquiera de los índices dimensionales de <code>.loc</code> por <code>:</code> y obtendremos todos los valores de esa dimensión, del mismo modo que pasaba en Numpy. De este modo, podemos escribir toda una fila en una sóla instrucción:

In [28]:
alumnos.loc[1,:] = ("Berta", 43, True)

print(alumnos)

    Nombre Edad Matriculado
0  Antonio   22       False
1    Berta   43        True
2      NaN  NaN         NaN
3      NaN  NaN         NaN
4      NaN  NaN         NaN


También podemos usar un diccionario para asignar una fila. En ocasiones, esto puede evitar errores, cuando exista el riesgo de que el orden de las columnas cambie (por ejemplo, porque estemos leyendo ficheros de un programa externo):

In [29]:
datos_Carlos = {"Nombre":"Carlos", "Edad":24, "Matriculado":True}
alumnos.loc[2,:] = datos_Carlos

print(alumnos)

    Nombre Edad Matriculado
0  Antonio   22       False
1    Berta   43        True
2   Carlos   24        True
3      NaN  NaN         NaN
4      NaN  NaN         NaN


Jupyter y Pandas se llevan especialmente bien. Si bien hasta ahora hemos estado pidiendo a Python que muestre por pantalla los datos con <code>print</code>, podemos también mostrarlo a la manera de Jupyter, que es simplemente tecleando el nombre de la variable como si fuera un comando. De este modo, la representación será visualmente más agradable:

In [30]:
alumnos.loc[alumnos['Edad']=='22',:]

Unnamed: 0,Nombre,Edad,Matriculado


Jupyter mostrará sólo las primeras filas de los <code>DataFrame</code> especialmente largos. En Python puro, la línea anterior no tendría efecto en un script, pero sí en un intérprete interactivo. Lo primero que querremos hacer cuando estemos trabajando con datos reales, será visualizar una muestra, y para ello, hacer una celda de Jupyter sólo con la variable es especialmente útil.

<p style="background-color:lightpink; padding:1em"><b>Ejercicio 4</b><br/>
    Complete la tabla con los datos de los alumnos que faltan <br/>
</p>

### Añadir y quitar columnas/filas

En un <code>DataFrame</code> cada columna es un objeto <code>Series</code> de un tipo determinado. Podemos ver el tipo de cada columna con el atributo <code>dtypes</code>:

In [31]:
alumnos.dtypes

Nombre         object
Edad           object
Matriculado    object
dtype: object

y podemos ver el índice del <code>DataFrame</code> con <code>index</code>:

In [32]:
alumnos.index

Int64Index([0, 1, 2, 3, 4], dtype='int64')

Cada columna, a la cual accedemos con <code>.loc[:,columna]</code>, es un objeto <code>Series</code>:

In [33]:
alumnos.loc[:,"Nombre"]

0    Antonio
1      Berta
2     Carlos
3        NaN
4        NaN
Name: Nombre, dtype: object

Alternativamente, podemos acceder a una columna con la siguiente sintaxis:

In [34]:
alumnos["Nombre"]

0    Antonio
1      Berta
2     Carlos
3        NaN
4        NaN
Name: Nombre, dtype: object

Pero de momento, usaremos la notación completa para evitar confusión con diccionarios o series, que usan la misma notación. Añadir una columna nueva es muy sencillo. Necesitamos tener para ello un objeto <code>Series</code> con un índice que contenga valores en común con el índice del <code>DataFrame</code>. Veamos un ejemplo:

In [35]:
notas = pd.Series( index=alumnos.index, data=[7.5, 4.5, 6.6, 9.4, 7.8])
notas

0    7.5
1    4.5
2    6.6
3    9.4
4    7.8
dtype: float64

La asignación de la nueva columna se hace de la siguiente manera:

In [36]:
alumnos.loc[:,"Nota"] = notas
alumnos

Unnamed: 0,Nombre,Edad,Matriculado,Nota
0,Antonio,22.0,False,7.5
1,Berta,43.0,True,4.5
2,Carlos,24.0,True,6.6
3,,,,9.4
4,,,,7.8


In [37]:
print(alumnos.loc[:,'Nota'].diff())

0    NaN
1   -3.0
2    2.1
3    2.8
4   -1.6
Name: Nota, dtype: float64


Si el objeto <code>Series</code> tiene un índice distinto al del <code>DataFrame</code>, pasan dos cosas:
- Las posiciones no presentes en el <code>Series</code> se rellenan con un dato nulo.
- Los valores de índice que sólo están en el <code>Series</code> se ignoran.

In [38]:
residencia = pd.Series(index=[0,1,4,5], data=["Alhaurin", "Benalmádena", "Estepona", "Fuengirola"])
residencia

0       Alhaurin
1    Benalmádena
4       Estepona
5     Fuengirola
dtype: object

In [39]:
alumnos.loc[:,"Residencia"] = residencia
alumnos

Unnamed: 0,Nombre,Edad,Matriculado,Nota,Residencia
0,Antonio,22.0,False,7.5,Alhaurin
1,Berta,43.0,True,4.5,Benalmádena
2,Carlos,24.0,True,6.6,
3,,,,9.4,
4,,,,7.8,Estepona


Si intentamos acceder a una fila concreta, lo cual haremos igual que con las columnas, pero intercambiando las dimensiones:

In [40]:
alumnos.loc[0, :]

Nombre          Antonio
Edad                 22
Matriculado       False
Nota                7.5
Residencia     Alhaurin
Name: 0, dtype: object

Veremos que también nos da un objeto <code>Series</code>.

Para añadir una fila podemos asignarla igual que hicimos para las filas existentes, usando un nuevo valor de índice. Como en el caso de la asignación, podemos usar un diccionario o una tupla; o también un objeto <code>Series</code> cuyo índice son las columnas del <code>DataFrame</code>:

In [41]:
nuevo = pd.Series( index=alumnos.columns, data=["Fátima", 23, True, 8.7, "Frigiliana"])

In [42]:
alumnos.loc[5,:] = nuevo
alumnos

Unnamed: 0,Nombre,Edad,Matriculado,Nota,Residencia
0,Antonio,22.0,False,7.5,Alhaurin
1,Berta,43.0,True,4.5,Benalmádena
2,Carlos,24.0,True,6.6,
3,,,,9.4,
4,,,,7.8,Estepona
5,Fátima,23.0,True,8.7,Frigiliana


En tablas con índice numérico, de hecho, podemos añadir nuevas entradas al final de la misma usando la longitud de la tabla. ¿Cómo podemos obtenerla? Con el atributo <code>shape</code> (forma), que nos da una tupla con la longitud (número de filas) y la anchura (número de columnas):

In [43]:
alumnos.shape

(6, 5)

Con esto, añadir una fila nueva al final es trivial:

In [44]:
nuevo = pd.Series( index=alumnos.columns, data=["Gonzalo", 30, True, 7.7, "Guaro"])

alumnos.loc[ alumnos.shape[-1] , :] = nuevo
alumnos

Unnamed: 0,Nombre,Edad,Matriculado,Nota,Residencia
0,Antonio,22.0,False,7.5,Alhaurin
1,Berta,43.0,True,4.5,Benalmádena
2,Carlos,24.0,True,6.6,
3,,,,9.4,
4,,,,7.8,Estepona
5,Gonzalo,30.0,True,7.7,Guaro


A continuación, vamos a ver cómo eliminar filas y columnas. Existen dos formas, la primera es seleccionar las filas y columnas que queramos (que veremos en la parte de selección de datos y que usaremos cuando queramos quitar datos según una condición) excluyendo las que no queremos, y la segunda, usar el método <code>drop()</code>. Por defecto, <code>drop()</code> elimina la fila que le pasemos, y devuelve un <code>DataFrame</code> nuevo:

In [45]:
print(alumnos)
print(alumnos.drop(2))

    Nombre Edad Matriculado  Nota   Residencia
0  Antonio   22       False   7.5     Alhaurin
1    Berta   43        True   4.5  Benalmádena
2   Carlos   24        True   6.6          NaN
3      NaN  NaN         NaN   9.4          NaN
4      NaN  NaN         NaN   7.8     Estepona
5  Gonzalo   30        True   7.7        Guaro
    Nombre Edad Matriculado  Nota   Residencia
0  Antonio   22       False   7.5     Alhaurin
1    Berta   43        True   4.5  Benalmádena
3      NaN  NaN         NaN   9.4          NaN
4      NaN  NaN         NaN   7.8     Estepona
5  Gonzalo   30        True   7.7        Guaro


El <code>DataFrame</code> queda intacto:

In [46]:
alumnos

Unnamed: 0,Nombre,Edad,Matriculado,Nota,Residencia
0,Antonio,22.0,False,7.5,Alhaurin
1,Berta,43.0,True,4.5,Benalmádena
2,Carlos,24.0,True,6.6,
3,,,,9.4,
4,,,,7.8,Estepona
5,Gonzalo,30.0,True,7.7,Guaro


Por lo que si queremos quedarnos con la versión modificada, tenemos dos opciones, asignar una nueva variable, que puede ser la misma que guarda el <code>DataFrame</code>:

In [47]:
alumnos = alumnos.drop(2)
alumnos

Unnamed: 0,Nombre,Edad,Matriculado,Nota,Residencia
0,Antonio,22.0,False,7.5,Alhaurin
1,Berta,43.0,True,4.5,Benalmádena
3,,,,9.4,
4,,,,7.8,Estepona
5,Gonzalo,30.0,True,7.7,Guaro


o usar el argumento <code>inplace</code>, que, en general podremos usar en muchos otros métodos de Pandas:

In [48]:
alumnos.drop(4, inplace=True)
alumnos

Unnamed: 0,Nombre,Edad,Matriculado,Nota,Residencia
0,Antonio,22.0,False,7.5,Alhaurin
1,Berta,43.0,True,4.5,Benalmádena
3,,,,9.4,
5,Gonzalo,30.0,True,7.7,Guaro


Para eliminar una columna entera, usaremos la misma función, especificando el eje del que queremos elimnar (<code>0</code> para filas, valor por defecto, o <code>1</code> para las columnas:

In [49]:
alumnos.drop("Residencia", axis=1)

Unnamed: 0,Nombre,Edad,Matriculado,Nota
0,Antonio,22.0,False,7.5
1,Berta,43.0,True,4.5
3,,,,9.4
5,Gonzalo,30.0,True,7.7


Como en el caso anterior, el <code>DataFrame</code> quedará intacto a menos que guardemos la variable.

<p style="background-color:lightpink; padding:1em"><b>Ejercicio 5</b><br/>
    Elimine la fila <code>3</code> de la tabla <code>alumnos</code>.
</p>

### Operaciones sobre <code>DataFrames</code>

Al igual que con los <code>Series</code>, podemos hacer operaciones con los <code>DataFrames</code>. Las operaciones son prácticamente las mismas, aplicándose a cada una de las columnas y resultando en un <code>Series</code>. Por ejemplo, podemos calcular el promedio con <code>mean()</code>:

In [50]:
alumnos.mean()

  alumnos.mean()


Edad           31.666667
Matriculado     0.666667
Nota            7.275000
dtype: float64

Lógicamente, al tratarse de una operación numérica, sólo afectará a las columnas numéricas. La columna <code>Matriculado</code> se considera también numérica, con los valores 0 y 1. De igual manera, podemos hacer la suma:

In [51]:
alumnos.sum()

  alumnos.sum()


Edad             95
Matriculado       2
Nota           29.1
dtype: object

Los resultados de estas operaciones son objetos <code>Series</code>:

Las operaciones <code>apply()</code> que vimos antes, también se pueden usar aquí. A diferencia de los objetos <code>Series</code>, en este caso, la función a aplicar recibirá un objeto <code>Series</code> por cada fila o columna (dependiendo del eje en el que se aplique). Veamos un ejemplo con la tabla <code>alumnos</code>. Supongamos que queremos hacer una frase diciendo "&lt;nombre de alumno&gt; &lt;está | no está&gt; matriculado", según el valor de la fila:

In [52]:
def frase(fila):
    if fila.loc["Matriculado"]:
        return "{} está matriculado".format(fila.loc["Nombre"])
    else:
        return "{} no está matriculado".format(fila.loc["Nombre"])

Si queremos aplicar la función fila a fila, tenemos que especificar el argumento <code>axis=1</code>:

In [53]:
print(alumnos)
alumnos.apply( frase, axis=1)

    Nombre Edad Matriculado  Nota   Residencia
0  Antonio   22       False   7.5     Alhaurin
1    Berta   43        True   4.5  Benalmádena
3      NaN  NaN         NaN   9.4          NaN
5  Gonzalo   30        True   7.7        Guaro


0    Antonio no está matriculado
1         Berta está matriculado
3           nan está matriculado
5       Gonzalo está matriculado
dtype: object

El resultado es una serie que comparte el índice con el <code>DataFrame</code> original. Una operación que haremos con bastante frecuencia, es generar nuevas columnas basadas en las existentes, usando <code>apply()</code> y asignando su salida a una nueva columna:

In [54]:
alumnos.loc[:,"Frase"] = alumnos.apply( frase, axis=1)
alumnos

Unnamed: 0,Nombre,Edad,Matriculado,Nota,Residencia,Frase
0,Antonio,22.0,False,7.5,Alhaurin,Antonio no está matriculado
1,Berta,43.0,True,4.5,Benalmádena,Berta está matriculado
3,,,,9.4,,nan está matriculado
5,Gonzalo,30.0,True,7.7,Guaro,Gonzalo está matriculado


<div style="background-color:lightpink; padding:1em">
<p ><b>Ejercicio 6</b><br/>
    Defina una función que reciba una fila, y haga lo siguiente:
    <ul>
        <li>Si el alumno está matriculado, devolver su nota</li>
        <li>Si el alumno no está matriculado, devolver 0</li>
    </ul>
    Aplíquela sobre la tabla <code>alumnos</code> y añada el resultado como una nueva columna.
</p>
</div>

Existen muchos más aspectos sobre los <code>DataFrame</code>, que se resumen <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html">aquí</a>, entre ellas la selección de datos, que veremos en otra libreta.

En versiones antiguas de Pandas, existía un tercer tipo de dato en llamado <code>Panel</code> que representaba datos en 3 dimensiones. En la actualidad, ese comportamiento se sustituye por <code>DataFrames</code> con índice multidimensional <code>MultiIndex</code>. No veremos los <code>MultiIndex</code> en este curso, pero en caso de necesidad, se puede consultar la <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html">documentación</a> de Pandas. Existe un tutorial en <a href="https://towardsdatascience.com/how-to-use-multiindex-in-pandas-to-level-up-your-analysis-aeac7f451fce">TowardsDataScience</a> que lo explica de forma muy clara. 

## Conclusiones

En esta libreta, hemos visto una nueva librería, Pandas, muy importante en nuestro proceso de análisis de datos. Serán el contenedor de los datos donde se les aplicarán distintas funciones. Los dos contenedores que hemos visto son:
- <code>Series</code>: contienen datos indexados que representan a una única variable. Permiten la aplicación de funciones y operaciones enventanadas.
- <code>DataFrame</code>: contienen tablas de datos, donde cada columna es una serie que comparte índice con las otras.

Esta no será, ni mucho menos, la última vez que veamos Pandas en este curso. Hay mucho más por ver, y lo iremos viendo poco a poco en las siguientes lecciones. Como referencia, en la guía <a href="https://pandas.pydata.org/docs/user_guide/10min.html">10 minutes to Pandas</a> hay una gran introducción a lo que se puede hacer con Pandas, pero en el curso veremos estas funciones distribuidas a lo largo de las lecciones.
  