# Pandas (Series)

La principal diferencia entre **NumPy** y **Pandas** es que NumPy se utiliza principalmente para trabajar con *arrays* y matrices multidimensionales, mientras que **Pandas** se utiliza para manipular y analizar datos estructurados en forma de tablas (*DataFrames*) o *Series*.



In [2]:
import pandas as pd
# Series
alumnado_por_curso = [25, 30, 22, 28, 20]
cursos = ['Python', 'Java', 'C++', 'JavaScript', 'Ruby']
serie_cursos = pd.Series(alumnado_por_curso, index=cursos)
print("Serie de Pandas:")
print(serie_cursos)

Serie de Pandas:
Python        25
Java          30
C++           22
JavaScript    28
Ruby          20
dtype: int64


In [11]:
# Atributos de Series
data = [10, 20, 30, 40, 50]
serie = pd.Series(data)
print("Tamaño de la serie:", serie.size)
print("Índices de la serie:", serie.index)
print("Tipos de datos de la serie:", serie.dtype)
serie.name = "Números"
print("Nombre de la serie:", serie.name)

Tamaño de la serie: 5
Índices de la serie: RangeIndex(start=0, stop=5, step=1)
Tipos de datos de la serie: int64
Nombre de la serie: Números


In [14]:
# Series (indexación por posición o etiqueta)
# Acceso por posición: iloc[]
serie = pd.Series([100, 200, 300, 400, 500], index=['a', 'b', 'c', 'd', 'e'])
# Series.iloc[i]
# for i in range(len(serie)):
#     print(f"Elemento en posición {i}:", serie.iloc[i])
# Seriesiloc[[posiciones]]
posiciones = [0, 2, 4]
print("Elementos en posiciones 0, 2 y 4:")
print(serie.iloc[posiciones])
# Series.iloc[inicio:fin]
print("Elementos desde posición 1 hasta 3:")
print(serie.iloc[1:4])
# Acceso por etiqueta: loc[]
# Series.loc[etiqueta]
# for etiqueta in serie.index:
#     print(f"Elemento en etiqueta '{etiqueta}':", serie.loc[etiqueta])
# Series.loc[[etiquetas]]
etiquetas = ['a', 'c', 'e']
print("Elementos en etiquetas 'a', 'c' y 'e':")
print(serie.loc[etiquetas])
# Series.loc[inicio:fin]
print("Elementos desde etiqueta 'b' hasta 'd':")
print(serie.loc['b':'d'])

Elementos en posiciones 0, 2 y 4:
a    100
c    300
e    500
dtype: int64
Elementos desde posición 1 hasta 3:
b    200
c    300
d    400
dtype: int64
Elementos en etiquetas 'a', 'c' y 'e':
a    100
c    300
e    500
dtype: int64
Elementos desde etiqueta 'b' hasta 'd':
b    200
c    300
d    400
dtype: int64


In [15]:
# Series por indexación booleana
serie = pd.Series([10, 25, 30, 45, 50], index=['DAW1', 'DAW2', 'DAM1', 'DAM2', 'ASIR'])
# Filtrar clase por número de alumnos mayor a 30
clases_mayores_30 = serie[serie > 30]
print("Clases con más de 30 alumnos:")
print(clases_mayores_30)

Clases con más de 30 alumnos:
DAM2    45
ASIR    50
dtype: int64


In [None]:
# # Resumen descriptivo de la serie
datos = [10, 20, None, 30, 40, 50, None]
serie_datos = pd.Series(datos)
print("Devuelve el número de elementos que no son nulos ni NaN:", serie_datos.count())
print("Devuelve la suma de los datos de la serie:", serie_datos.sum())
print("Devuelve una serie con la suma acumulada de los datos de la serie:")
print(serie_datos.cumsum())
print("Devuelve una serie con la frecuencia de cada valor de la serie:")
print(serie_datos.value_counts())
print("Devuelve el menor de los datos de la serie:", serie_datos.min())
print("Devuelve el mayor de los datos de la serie:", serie_datos.max())
print("Devuelve la media de los datos de la serie:", serie_datos.mean())
print("Devuelve la varianza de los datos de la serie:", serie_datos.var())
print("Devuelve la desviación típica de los datos de la serie:", serie_datos.std())
print("Devuelve un resumen descriptivo de la serie:")
print(serie_datos.describe())

Devuelve el número de elementos que no son nulos ni NaN: 5
Devuelve la suma de los datos de la serie: 150.0
Devuelve una serie con la suma acumulada de los datos de la serie:
0     10.0
1     30.0
2      NaN
3     60.0
4    100.0
5    150.0
6      NaN
dtype: float64
Devuelve una serie con la frecuencia de cada valor de la serie:
10.0    1
20.0    1
30.0    1
40.0    1
50.0    1
Name: count, dtype: int64
Devuelve el menor de los datos de la serie: 10.0
Devuelve el mayor de los datos de la serie: 50.0
Devuelve la media de los datos de la serie: 30.0
Devuelve la varianza de los datos de la serie: 250.0
Devuelve la desviación típica de los datos de la serie: 15.811388300841896
Devuelve un resumen descriptivo de la serie:
count     5.000000
mean     30.000000
std      15.811388
min      10.000000
25%      20.000000
50%      30.000000
75%      40.000000
max      50.000000
dtype: float64


In [None]:
# Series (operaciones entre series)
serie1 = pd.Series([30, 10, 50, 40, 20], index=['a', 'd', 'c', 'b', 'e'])
# Ordenar serie
# serie_ordenada = serie1.sort_values(ascending=False)
serie_ordenada = serie1.sort_values()
print("Serie ordenada:")
print(serie_ordenada)
# Ordenar serie por índice
# serie_ordenada_indice = serie1.sort_index(ascending=False)
serie_ordenada_indice = serie1.sort_index()
print("Serie ordenada por índice:")
print(serie_ordenada_indice)


Serie ordenada:
d    10
e    20
a    30
b    40
c    50
dtype: int64
Serie ordenada por índice:
a    30
b    40
c    50
d    10
e    20
dtype: int64
Serie original con NaN:
0    10.0
1    20.0
2     NaN
3    30.0
4    40.0
5    50.0
6     NaN
dtype: float64
Serie sin NaN:
0    10.0
1    20.0
3    30.0
4    40.0
5    50.0
dtype: float64


In [29]:
# Eliminar datos desconocidos (NaN)
datos = [10, 20, None, 30, 40, 50, None]
serie_datos = pd.Series(datos)
print("Serie original con NaN:")
print(serie_datos)
serie_sin_nan = serie_datos.dropna()
print("Serie sin NaN:")
print(serie_sin_nan)

Serie original con NaN:
0    10.0
1    20.0
2     NaN
3    30.0
4    40.0
5    50.0
6     NaN
dtype: float64
Serie sin NaN:
0    10.0
1    20.0
3    30.0
4    40.0
5    50.0
dtype: float64
