In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

In [46]:
# Los dataframes están formados por Series, el objeto fundamental de pandas
notas1 = pd.Series(np.random.randint(0,6, size = 5), index = list('abcde'), name = 'Cohorte 1')
notas1

a    4
b    3
c    3
d    5
e    0
Name: Cohorte 1, dtype: int64

Las series también se pueden generar a partir de diccionarios como los DataFrames:

In [9]:
a = pd.Series({'t' : 3, 'r' : 2}, name = 'valores')
a

t    3
r    2
Name: valores, dtype: int64

In [11]:
# Devuelve un array de Pandas con los elementos de la serie (pierde la asociación a índice
notas1.array

<PandasArray>
[4, 4, 1, 0, 0]
Length: 5, dtype: int64

In [13]:
# Devuelve el tipo de los datos de la Serie
notas1.dtype

dtype('int64')

In [15]:
# Devuelve la lista de índices de la Serie
notas1.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [17]:
# Devuelve el nombre de la columna (Serie)
notas1.name

'Cohorte 1'

In [19]:
# Devuelve un array de numpy con los elementos de la serie
notas1.values

array([4, 4, 1, 0, 0])

In [23]:
# Da la forma de la serie
notas1.shape

(5,)

In [26]:
# Devuelve el tamaño total
notas1.size

5

In [35]:
# Permite localizar por índice
notas1.loc['a']

4

In [38]:
# Permite localizar por posición
notas1.iloc[1]

4

In [47]:
# Operan igual que los arrays
notas1 = notas1/notas1.max()
notas1

a    0.8
b    0.6
c    0.6
d    1.0
e    0.0
Name: Cohorte 1, dtype: float64

In [56]:
notas = notas1.copy()

In [57]:
notas = notas.rename('Copia de Cohorte 1')
notas

a    0.8
b    0.6
c    0.6
d    1.0
e    0.0
Name: Copia de Cohorte 1, dtype: float64

In [58]:
# reindex sirve para cambiar el orden de índices, no para crear unas nuevas etiquetas
#new_index = list('mnopq')
#notas = notas.reindex(new_index)
#notas

In [60]:
notas = notas.replace(to_replace = 0, value = 3)
notas

a    0.8
b    0.6
c    0.6
d    1.0
e    3.0
Name: Copia de Cohorte 1, dtype: float64

In [62]:
# Deja los valores donde se cumple la condición
notas.where(notas>2)

a    NaN
b    NaN
c    NaN
d    NaN
e    3.0
Name: Copia de Cohorte 1, dtype: float64

In [64]:
# Deja los valores donde no se cumple la condición
notas.mask(notas>2)

a    0.8
b    0.6
c    0.6
d    1.0
e    NaN
Name: Copia de Cohorte 1, dtype: float64

In [66]:
notas.mask(notas>2).isna()

a    False
b    False
c    False
d    False
e     True
Name: Copia de Cohorte 1, dtype: bool

In [69]:
# remueve los índices con un valor NaN
notas.mask(notas>2).dropna()

a    0.8
b    0.6
c    0.6
d    1.0
Name: Copia de Cohorte 1, dtype: float64

In [74]:
notas.mask(notas>2).fillna(7)

a    0.8
b    0.6
c    0.6
d    1.0
e    7.0
Name: Copia de Cohorte 1, dtype: float64

In [77]:
notas.sort_values(ascending = False)

e    3.0
d    1.0
a    0.8
b    0.6
c    0.6
Name: Copia de Cohorte 1, dtype: float64

In [79]:
notas.sort_index(ascending = False)

e    3.0
d    1.0
c    0.6
b    0.6
a    0.8
Name: Copia de Cohorte 1, dtype: float64

In [89]:
notas2 = pd.Series(np.random.randint(0,6, size = 5), index = list('fghij'), name = 'Cohorte 2')
pd.concat([notas1, notas2])

a    0.8
b    0.6
c    0.6
d    1.0
e    0.0
f    0.0
g    4.0
h    0.0
i    2.0
j    2.0
dtype: float64

In [90]:
# con .loc tambien se pueden añadir elementos
notas2.loc['a'] = 3
notas2

f    0
g    4
h    0
i    2
j    2
a    3
Name: Cohorte 2, dtype: int64

In [87]:
notas2

f    1.0
g    0.0
h    5.0
i    2.0
j    4.0
k    NaN
Name: Cohorte 2, dtype: float64

In [93]:
notas = notas1 + notas2
notas.name = 'suma'
notas

a    3.8
b    NaN
c    NaN
d    NaN
e    NaN
f    NaN
g    NaN
h    NaN
i    NaN
j    NaN
Name: suma, dtype: float64

In [96]:
total = pd.concat((notas1, notas2, notas), axis = 1)
total

Unnamed: 0,Cohorte 1,Cohorte 2,suma
a,0.8,3.0,3.8
b,0.6,,
c,0.6,,
d,1.0,,
e,0.0,,
f,,0.0,
g,,4.0,
h,,0.0,
i,,2.0,
j,,2.0,


In [97]:
total.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Cohorte 1  5 non-null      float64
 1   Cohorte 2  6 non-null      float64
 2   suma       1 non-null      float64
dtypes: float64(3)
memory usage: 320.0+ bytes


In [102]:
total['Cohorte 1'].unique()

array([0.8, 0.6, 1. , 0. , nan])

In [104]:
# Cuenta el numero de diferentes valores excluyendo Nan
total['Cohorte 1'].nunique()

4