# Pandas (_Python Data Analysis_)

Francisco Jurado Monroy <francisco.jurado@uam.es>

Universidad Autónoma de Madrid

Librería que permite realizar análisis de datos en Python.

Proporciona dos estructuras de datos:

- __Series__: almacenan información en una única dimensión con etiquetas.
    * Soportan indexación basada en números enteros y en etiquetas, y proporciona una gran cantidad de métodos para realizar operaciones relacionadas con el índice.
    * Proporciona métodos estadísticos sobre los elementos excluyendo automáticamente los datos que faltan (representados como NaN).
- __Dataframes__: estructura bidimensional constituida por un conjunto de series.

## Series

In [None]:
import pandas as pd
help(pd.Series)

Puede crearse una serie a partir de una lista. El tipo de dato de la lista dependerá del tipo de los objetos que almacene.

Fíjese de qué tipo es la serie creada con una lista de objetos cadena.

In [None]:
list_of_characters = ["Obi-One Kenobi", "Luke Skywalker", "Darth Vader"]
pd.Series(list_of_characters)

Sin embargo, si los objetos que alberga son enteros el tipo de la serie es entero.

In [None]:
numbers = [x+10 for x in range(10)]
pd.Series(numbers)

Compruebe lo que ocurre guardando los números de la siguiente manera

In [None]:
numbers = ["1", "2", "25", "32"]
pd.Series(numbers)

Y si lo que alberga con números en coma flotante, el tipo de la serie será de coma flotante.

In [None]:
numbers = [3.1416, 2.5, 8.0, 10.45, 7.26]
pd.Series(numbers)

Ahora fíjese lo que ocurre al añadir un objeto de tipo `None` en una serie de objetos.

In [None]:
list_of_characters = ["Obi-One Kenobi", "Luke Skywalker", "Darth Vader", None]
pd.Series(list_of_characters)

Sin embargo, si la serie es de enteros `None` es tomado como `NaN` (_Not a Number_)

In [None]:
numbers = [x for x in range(10)] + [None]
s = pd.Series(numbers)
s

In [None]:
s.index

También pueden crearse a partir de diccionarios, en cuyo caso el índice vendrá dado por las claves del diccionario.

In [None]:
movies = {'Star Wars': ['George Lucas', 1977],
          '2001: A Space Odyssey': ['Stanley Kubrick', 1968],
          'E.T. The Extra-Terrestrial': ['Steven Spielberg', 1982]}
s = pd.Series(movies)
s

In [None]:
s.index

Para acceder (indexar) a los datos de una serie, puede optarse por hacerlo mediante posición:

In [None]:
s.iloc[2]

In [None]:
s[2] # forma abreviada del anterior

... o mediante nombre:

In [None]:
s.loc['E.T. The Extra-Terrestrial']

In [None]:
s['E.T. The Extra-Terrestrial'] # forma abreviada del anterior

Las series son iterables (igual que las listas o los diccionarios), por lo que pueden emplearse bucles como el que sigue:

In [None]:
# crea una lista de 50000 números
numbers = [3.1416, 2.5, 8.0, 10.45, 7.26]*10000
s = pd.Series(numbers)
s

In [None]:
total = 0
for item in s:
    total+=item
    
print(total)

Como objetos, las Series disponen de varios métodos que implementan muchas de las operaciones más habituales en exploración de datos (recuerde `help(pd.Series)` de arriva):

In [None]:
s.sum()

In [None]:
s.mean()

In [None]:
s.max(), s.min()

Siempre que pueda, use las operaciones implementadas para los objetos Serie, pues serán mucho más rapidas con volúmenes grandes de datos.

In [None]:
%%timeit -n 100 # repite el código 100 veces y proporciona el mejor tiempo de ejecución

total = 0
for item in s:
    total+=item

In [None]:
%%timeit -n 100 # repite el código 100 veces y proporciona el mejor tiempo de ejecución

s.sum()

## Dataframes

Los `Dataframes` nos permitirán agregar varias series en una sola estructura, siempre y cuando todas las series tengan la misma longitud.

In [None]:
import pandas as pd
help(pd.DataFrame)

Existen varias formas de crear un `Dataframe`. Una de las más habituales es hacerlo a partir de series.

In [None]:
df = pd.DataFrame({"columna1": pd.Series(["Person1","Person2", "Person3"]), 
                   "columna2": pd.Series(["id1", None, "id3"])})
df

También puede visualizarse de manera que cada serie represente una fila del dataframe.

Suponga que se desea construir un `Dataframe` con los datos de todas las asignaturas de un curso:

In [None]:
asignatura_1 = pd.Series({'Name': 'Componentes de un ordenador',
                          'Online': '1/6/2026',
                          'Presencial': '2/6/2026', 
                          'Horas_presenciales': 1,
                          'Trabajo_alumno': 10
                         })

asignatura_2 = pd.Series({'Name': 'Sistemas de numeración',
                          'Online': '1/6/2026',
                          'Presencial': '2/6/2026', 
                          'Horas_presenciales': 1,
                          'Trabajo_alumno': 5
                         })
asignatura_3 = pd.Series({'Name': 'Programación de un ordenador',
                          'Online': '8/6/2026',
                          'Presencial': '2/6/2026', 
                          'Horas_presenciales': 2,
                          'Trabajo_alumno': 15
                         })
asignatura_4 = pd.Series({'Name': 'Redes de computadores',
                          'Online': '15/6/2026',
                          'Presencial': '2/6/2026', 
                          'Horas_presenciales': 4,
                          'Trabajo_alumno': 15
                         })
asignatura_5 = pd.Series({'Name': 'Sistemas operativos',
                          'Online': '22/6/2026',
                          'Presencial': '16/6/2026', 
                          'Horas_presenciales': 3,
                          'Trabajo_alumno': 15
                         })
asignatura_6 = pd.Series({'Name': 'Utilización de máquinas Virtuales',
                          'Online': '22/6/2026',
                          'Presencial': '16/6/2026', 
                          'Horas_presenciales': 1,
                          'Trabajo_alumno': 5
                         })
asignatura_7 = pd.Series({'Name': 'Introducción a la programación (Python)',
                          'Online': '29/6/2026',
                          'Presencial': '16/6/2026', 
                          'Horas_presenciales': 6,
                          'Trabajo_alumno': 40
                         })
examen = pd.Series({'Name': 'Examen',
                    'Online': '14/7/2026',
                    'Presencial': '14/7/2026', 
                    'Horas_presenciales': 2,
                    'Trabajo_alumno': 0
                   })


df = pd.DataFrame([asignatura_1, asignatura_2, asignatura_3, asignatura_4,
                  asignatura_5, asignatura_6, asignatura_7, examen])
df.head()

In [None]:
df['Name']

In [None]:
df.Name

En la primera columna de la tabla puede observar los índices de las filas (0, 1, 2, 3...). Si queremos que sea otra columna la que se emplee a modo de índice, puede emplearse el método `set_index('nombre_columna')`

In [None]:
df = df.set_index('Name')

df

Ahora la columna 'Name' es el índice, y podrá accederse a la información de las filas mediante el nombre:

In [None]:
df.loc['Introducción a la programación (Python)']

Fíjese que cada fila es en realidad una Serie:

In [None]:
type(df.loc['Introducción a la programación (Python)'])

... o bien podrá accederse al dato almacenado en una celda concreta indicando la fila y la columna:

In [None]:
df.loc['Introducción a la programación (Python)', 'Trabajo_alumno']

... incluso puede acceder a más de una columna indicando la lista de columnas:

In [None]:
df.loc['Introducción a la programación (Python)', ['Horas_presenciales', 'Trabajo_alumno']]

Si lo que se desea es acceder a todos los datos de una columna concreta:

In [None]:
df.loc[:, ['Horas_presenciales', 'Trabajo_alumno']]

In [None]:
type(df.loc[:, ['Horas_presenciales', 'Trabajo_alumno']])

## Consultando datos

Una vez cargados los datos, podrán realizarse consultas sobre ellos.

Pandas devolverá verdadero o falso para cada caso, según se cumpla la condición de consulta.

In [None]:
df['Trabajo_alumno'] > 5

... y esta misma consulta podrá emplearse para extraer las filas relevantes:

In [None]:
df[df['Trabajo_alumno'] > 5] # devuelve aquellas filas del dataframe que cumplen la condición

Podríamos hacerlo aún más complejo, indicando que devuelva un subconjundo de columnas

In [None]:
df.loc[df['Trabajo_alumno'] <= 5, ['Online', 'Presencial']] # devuelve las columnas solicitadas cuyas filas cumplen la condición

Dado que las filas son Series, podrán emplearse todos los métodos implementados para estas. 

Por ejemplo, puede conocerse cuál es el número máximo de horas del alumno dedicados a una sola asignatura:

In [None]:
df['Trabajo_alumno'].max()

In [None]:
df.loc[['Examen', 'Utilización de máquinas Virtuales'], 'Trabajo_alumno'].sum()

In [None]:
df.loc[['Examen', 'Utilización de máquinas Virtuales'], 'Trabajo_alumno']

Si se desea saber qué asignaturas cumplen esa condición, podrémos hacer la consulta pertinente:

In [None]:
df['Trabajo_alumno'].max()

In [None]:
df['Trabajo_alumno'] == df['Trabajo_alumno'].max()

Si lo que se desea es extraer del Dataframe aquella fila (Serie) que cumple la anterior condición:

In [None]:
df[df['Trabajo_alumno'] == df['Trabajo_alumno'].max()]

También podrán aplicarse métodos sobre las columnas.

Quédemonos solo con la columna trabajo del alumno

In [None]:
df.loc[:,'Trabajo_alumno']

Ahora sumémos todas esas horas:

In [None]:
df.loc[:, 'Trabajo_alumno'].sum()

Extraigamos ahora las horas totales de trabajo en clase y de trabajo del alumno:

In [None]:
df.loc[:, ['Horas_presenciales', 'Trabajo_alumno']].sum()

In [None]:
type(df.loc[:, ['Horas_presenciales', 'Trabajo_alumno']].sum())

... y si se desea volver a sumar todas las horas:

In [None]:
df.loc[:, ['Horas_presenciales', 'Trabajo_alumno']].sum().sum()

Teniendo en cuenta que cada crédito ECTS equivalen a 25 horas de trabajo, el número de créditos de la materia será:

In [None]:
df.loc[:, ['Horas_presenciales', 'Trabajo_alumno']].sum().sum() / 25

Veamos más ejemplos.

Suponga que se desea conocer cuáles son los días en los que se imparte clase de forma presencial. Se puede comenzar consultando las fechas de todas las asignaturas:

In [None]:
df.loc[:,'Presencial']

Ahora quedémonos con las fechas que sean distintas (únicas):

In [None]:
df.loc[:,'Presencial'].unique()

Si se desea conocer qué asignaturas se impartieron el 2/6/2026:

In [None]:
df[df['Presencial']=='2/6/2026']

__Recuerde:__ Para obtener una lista completa de todos los métodos sobre Series y Dataframes teclee `help(pd.Series)` y `help(pd.Dataframe)` respectivamente.

In [None]:
help(pd.Series)