# Introducción a Python 

## Pandas -Series

Vamos a ver las características principales de esta biblioteca 
que "recubre" numpy con estructuras de alto nivel y herramientas que
failitan el tratamiento de datos. Representa una fila o una columna de un dataframe


### Índice
[Creación](#Creación)<br>
[Índices](#Índices)<br>
[Atributos](#Atributos)<br>
[Valores temporales](#Valores-temporales)<br>


### Creación

La forma más sencilla: a partir de arrays unidimensionales de cualquier tipo admitido por Numpy

In [6]:
import pandas as pd
from pandas import Series

serie = Series([1.0, 7., 5., 3.1]) # creación
serie

0    1.0
1    7.0
2    5.0
3    3.1
dtype: float64

In [5]:
from random import randint
randint(1,100)

65

Ya vemos algo interesante; salen 2 columnas, el valor que hemos puesto pero antes su posición. Es lo que vamos a llamar índice y se puede ver como un "nombre" del valor.

### Índices

La columna de la izquierda son los índices. Un error muy común es crer un índice que simplemente es la posición de cada elemento, como parece a primera vista

In [7]:
print(serie[3])
print(serie[0:2])

3.1
0    1.0
1    7.0
dtype: float64


Pero son un identificador de fila, que puede tomar cualquier valor básico

In [9]:
serie = Series(["Bertoldo", "Peláez", "C/Jazmín", "999999"],
               ["nombre",    "apellido","calle",  "teléfono"]) # creación con ind.
serie

nombre      Bertoldo
apellido      Peláez
calle       C/Jazmín
teléfono      999999
dtype: object

In [10]:
print(serie[3],serie['calle'])

999999 C/Jazmín


In [11]:
print(serie['nombre':'calle'])

nombre      Bertoldo
apellido      Peláez
calle       C/Jazmín
dtype: object


In [None]:
print(serie[0:3])

d    1.0
c    7.0
b    5.0
dtype: float64


In [None]:
serie = Series([1.0, 7., 5., 3.1],[5,6,7,8]) # creación con ind.
serie[7]

5.0

El índice no debe confundirse con una *clave única*, puede repetirse y en ese caso devuelve una serie

In [12]:
serie = Series([1.0, 7., 5., 3.1],["d","d","b","d"]) # creación con ind.
serie

d    1.0
d    7.0
b    5.0
d    3.1
dtype: float64

In [15]:
serie['d']

d    1.0
d    7.0
d    3.1
dtype: float64

In [16]:
print(type(serie['b']))
print(type(serie['d']))


<class 'numpy.float64'>
<class 'pandas.core.series.Series'>


Por tanto una *Serie* tiene dos componentes: los valores y sus índice

In [17]:
print(serie.values, type(serie.values))
print(serie.index, type(serie.index))

[1.  7.  5.  3.1] <class 'numpy.ndarray'>
Index(['d', 'd', 'b', 'd'], dtype='object') <class 'pandas.core.indexes.base.Index'>


Ya que una serie es un array Numpy podemos usar todo lo que vimos al hablar de esta bibliteca

*Ej.* Mostrar todos los elementos de `serie` mayores que 3

In [18]:
filtro = serie>3
serie[filtro]

d    7.0
b    5.0
d    3.1
dtype: float64

Cambiar por 0 todos los valores de `serie` con índice 'd'

In [19]:
serie['d']=0
serie

d    0.0
d    0.0
b    5.0
d    0.0
dtype: float64

En general casi todas las operaciones se refieren a los valores y no a los índices. Solo unas pocas, como `in` se refieren a los índices, lo que puede resultar confuso. 

Para entenderlo podemos pensar en una Serie como un diccionario, con los índices las claves.

In [None]:
print(0 in serie, 0 in serie.values)
print('d' in serie)

False True
True


In [20]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350, 
         'Valencia': 2547986, 'Sevilla': 1939887, 
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades = Series(sdata)
ciudades

Madrid       6507184
Barcelona    5609350
Valencia     2547986
Sevilla      1939887
Alicante     1838819
Málaga       1641121
dtype: int64

**Ej.** Nombres de ciudades con más de 2 millones de habitantes

In [23]:
filtro = ciudades>2000000
ciudades[filtro].values

array([6507184, 5609350, 2547986])

Tiene que haber tantos índices como valores

In [None]:
s2 = Series([4.4,5.5,5],['a','b'])
s2

In [None]:
s2 = Series([4.4,5.5,5],index = ['d','b','c','a'])
s2

Con los diccionarios se pueden hacer cosas un poco más extrañas, que provocan la aparición de valores missing

In [None]:
sdata = {'Madrid': 6507184, 'Barcelona': 5609350, 
         'Valencia': 2547986, 'Sevilla': 1939887, 
         'Alicante': 1838819, 'Málaga':1641121  }
ciudades2 = Series(sdata, ['Málaga','Sevilla','Móstoles'])
ciudades2

Málaga      1641121.0
Sevilla     1939887.0
Móstoles          NaN
dtype: float64

Los predicados `pd.isnull` (método `isnull`) y `pd.notnull` (método `nitnull`) permiten devuelve una Serie (o un DataFrame) con valores booleanos para señalar los valores perdidos

In [None]:
print(pd.isnull(ciudades2),"\n",
      ciudades2.isnull(),type(pd.isnull(ciudades2)))

Málaga      False
Sevilla     False
Móstoles     True
dtype: bool 
 Málaga      False
Sevilla     False
Móstoles     True
dtype: bool <class 'pandas.core.series.Series'>


**Ej.** Crear un objeto tipo Series que sea una copia de  `ciudades2` pero con los valores missing puestos a 0

In [None]:
ciudades3 = ciudades2.copy()
ciudades3[ciudades2.isnull()]=0
print(ciudades3,"\n",ciudades2)

Los índices se usan para *alinear* los dataframes/series

In [None]:
ciudades + ciudades3

In [None]:
ciudades + ciudades2

**Ej.** ¿Qué resultado dará el siguiente código? 

In [None]:
a = Series([0,1,2,3])
b = Series(range(4),range(3,-1,-1))
a+b

**Ej.** ¿Qué podemos hacer con lo ya visto para sumar componente a componente?

In [None]:
a.values+b.values

Otra posibilidad es modificar los índices de `b`

In [None]:
b.index = range(4)
a+b

El tener los índices en orden poco habitual cuando son numéricos puede dar lugar a confusión

In [None]:
b = Series(range(4),['d','c','b','a'])
b

In [None]:
b['a'],b['b']

In [None]:
b['d':'b']

### Atributos

Además de los atributos *index* y *values*, `Serie` tiene otros atributos de interés.<br><br>

Los siguientes permiten comprobar si una serie es monótona, monótona creciente o monótona decreciente

In [24]:
a = Series(range(4))
a.is_monotonic, a.is_monotonic_decreasing, a.is_monotonic_increasing

(True, False, True)

In [None]:
a

0    0
1    1
2    2
3    3
dtype: int64

En ocasiones es interesante ponerle un nombre a una serie

In [None]:
a.name = 'Datos autobuses Almendralejo'
b = a
print(b.name )

Datos autobuses Almendralejo


In [None]:
a

0    0
1    1
2    2
3    3
Name: Datos autobuses Almendralejo, dtype: int64

El índice también puede tener su nombre

In [None]:
a.index.name = "El índice"
a

El índice
0    0
1    1
2    2
3    3
Name: Datos autobuses Almendralejo, dtype: int64

Recordemos también que tenemos muchos de los atributos que existían en Numpy.

In [None]:
print(a.shape, "\n", a.size)

(4,) 
 4


Son de especial interés los atributos que permiten acceder directamente a los atributos a través de su posición o de la posición de sus índices. Los emplearemos muchos al hablar de DataFrames:

- loc permite el acceso a través de los índices
- iloc permite el acceso a través de la posición

In [None]:
a = Series([0,1,3,4],['a','b','c','d'])
a

In [None]:
# equivale a  a['b'], o a.values[1]
a.loc['b'], a.iloc[1]

In [None]:
a['b':'d']

### Valores temporales

A veces es útil tener índices que son intervalos temporales

In [26]:
import numpy as np
idia = pd.date_range('12/30/2022', periods=45)
print(idia)
serie = Series(np.random.randint(30,size=45),idia)
serie


DatetimeIndex(['2022-12-30', '2022-12-31', '2023-01-01', '2023-01-02',
               '2023-01-03', '2023-01-04', '2023-01-05', '2023-01-06',
               '2023-01-07', '2023-01-08', '2023-01-09', '2023-01-10',
               '2023-01-11', '2023-01-12', '2023-01-13', '2023-01-14',
               '2023-01-15', '2023-01-16', '2023-01-17', '2023-01-18',
               '2023-01-19', '2023-01-20', '2023-01-21', '2023-01-22',
               '2023-01-23', '2023-01-24', '2023-01-25', '2023-01-26',
               '2023-01-27', '2023-01-28', '2023-01-29', '2023-01-30',
               '2023-01-31', '2023-02-01', '2023-02-02', '2023-02-03',
               '2023-02-04', '2023-02-05', '2023-02-06', '2023-02-07',
               '2023-02-08', '2023-02-09', '2023-02-10', '2023-02-11',
               '2023-02-12'],
              dtype='datetime64[ns]', freq='D')


2022-12-30    19
2022-12-31    26
2023-01-01     4
2023-01-02    15
2023-01-03    27
2023-01-04    25
2023-01-05     1
2023-01-06    13
2023-01-07     3
2023-01-08    28
2023-01-09    23
2023-01-10    24
2023-01-11     3
2023-01-12    25
2023-01-13    20
2023-01-14    15
2023-01-15    15
2023-01-16     7
2023-01-17    24
2023-01-18    17
2023-01-19    13
2023-01-20    21
2023-01-21    17
2023-01-22     1
2023-01-23    28
2023-01-24    25
2023-01-25     1
2023-01-26     4
2023-01-27    20
2023-01-28    29
2023-01-29     6
2023-01-30    18
2023-01-31     9
2023-02-01    25
2023-02-02    28
2023-02-03    21
2023-02-04    20
2023-02-05    12
2023-02-06    11
2023-02-07    20
2023-02-08    15
2023-02-09    19
2023-02-10     4
2023-02-11    22
2023-02-12    19
Freq: D, dtype: int64

Se puede cambiar la frecuencia:

    Alias 	Description
    B 	business day frequency
    C 	custom business day frequency
    D 	calendar day frequency
    W 	weekly frequency
    M 	month end frequency
    SM 	semi-month end frequency (15th and end of month)
    BM 	business month end frequency
    CBM 	custom business month end frequency
    MS 	month start frequency
    SMS 	semi-month start frequency (1st and 15th)
    BMS 	business month start frequency
    CBMS 	custom business month start frequency
    Q 	quarter end frequency
    BQ 	business quarter end frequency
    QS 	quarter start frequency
    BQS 	business quarter start frequency
    A, Y 	year end frequency
    BA, BY 	business year end frequency
    AS, YS 	year start frequency
    BAS, BYS 	business year start frequency
    BH 	business hour frequency
    H 	hourly frequency
    T, min 	minutely frequency
    S 	secondly frequency
    L, ms 	milliseconds
    U, us 	microseconds
    N 	nanoseconds

In [27]:
idia = pd.date_range('12/11/2019 16:00:00', periods=15, freq='T')
print(idia)
seriea = Series(np.random.randint(30,size=15),idia)
seriea

DatetimeIndex(['2019-12-11 16:00:00', '2019-12-11 16:01:00',
               '2019-12-11 16:02:00', '2019-12-11 16:03:00',
               '2019-12-11 16:04:00', '2019-12-11 16:05:00',
               '2019-12-11 16:06:00', '2019-12-11 16:07:00',
               '2019-12-11 16:08:00', '2019-12-11 16:09:00',
               '2019-12-11 16:10:00', '2019-12-11 16:11:00',
               '2019-12-11 16:12:00', '2019-12-11 16:13:00',
               '2019-12-11 16:14:00'],
              dtype='datetime64[ns]', freq='T')


2019-12-11 16:00:00    22
2019-12-11 16:01:00    21
2019-12-11 16:02:00     1
2019-12-11 16:03:00     1
2019-12-11 16:04:00    29
2019-12-11 16:05:00     9
2019-12-11 16:06:00    10
2019-12-11 16:07:00     4
2019-12-11 16:08:00     8
2019-12-11 16:09:00    25
2019-12-11 16:10:00     8
2019-12-11 16:11:00     5
2019-12-11 16:12:00     8
2019-12-11 16:13:00     8
2019-12-11 16:14:00    17
Freq: T, dtype: int64

In [28]:
idib = pd.date_range('12/11/2019 16:00:00', periods=15, freq='2T')
print(idib)
serieb = Series(np.random.randint(30,size=15),idib)
serieb 

DatetimeIndex(['2019-12-11 16:00:00', '2019-12-11 16:02:00',
               '2019-12-11 16:04:00', '2019-12-11 16:06:00',
               '2019-12-11 16:08:00', '2019-12-11 16:10:00',
               '2019-12-11 16:12:00', '2019-12-11 16:14:00',
               '2019-12-11 16:16:00', '2019-12-11 16:18:00',
               '2019-12-11 16:20:00', '2019-12-11 16:22:00',
               '2019-12-11 16:24:00', '2019-12-11 16:26:00',
               '2019-12-11 16:28:00'],
              dtype='datetime64[ns]', freq='2T')


2019-12-11 16:00:00    15
2019-12-11 16:02:00    20
2019-12-11 16:04:00    22
2019-12-11 16:06:00    18
2019-12-11 16:08:00    23
2019-12-11 16:10:00     5
2019-12-11 16:12:00    14
2019-12-11 16:14:00    29
2019-12-11 16:16:00     2
2019-12-11 16:18:00    25
2019-12-11 16:20:00     0
2019-12-11 16:22:00    23
2019-12-11 16:24:00    19
2019-12-11 16:26:00     6
2019-12-11 16:28:00    12
Freq: 2T, dtype: int64

In [29]:
seriea+serieb

2019-12-11 16:00:00    37.0
2019-12-11 16:01:00     NaN
2019-12-11 16:02:00    21.0
2019-12-11 16:03:00     NaN
2019-12-11 16:04:00    51.0
2019-12-11 16:05:00     NaN
2019-12-11 16:06:00    28.0
2019-12-11 16:07:00     NaN
2019-12-11 16:08:00    31.0
2019-12-11 16:09:00     NaN
2019-12-11 16:10:00    13.0
2019-12-11 16:11:00     NaN
2019-12-11 16:12:00    22.0
2019-12-11 16:13:00     NaN
2019-12-11 16:14:00    46.0
2019-12-11 16:16:00     NaN
2019-12-11 16:18:00     NaN
2019-12-11 16:20:00     NaN
2019-12-11 16:22:00     NaN
2019-12-11 16:24:00     NaN
2019-12-11 16:26:00     NaN
2019-12-11 16:28:00     NaN
dtype: float64

In [30]:
seriea

2019-12-11 16:00:00    22
2019-12-11 16:01:00    21
2019-12-11 16:02:00     1
2019-12-11 16:03:00     1
2019-12-11 16:04:00    29
2019-12-11 16:05:00     9
2019-12-11 16:06:00    10
2019-12-11 16:07:00     4
2019-12-11 16:08:00     8
2019-12-11 16:09:00    25
2019-12-11 16:10:00     8
2019-12-11 16:11:00     5
2019-12-11 16:12:00     8
2019-12-11 16:13:00     8
2019-12-11 16:14:00    17
Freq: T, dtype: int64

In [31]:
serieb

2019-12-11 16:00:00    15
2019-12-11 16:02:00    20
2019-12-11 16:04:00    22
2019-12-11 16:06:00    18
2019-12-11 16:08:00    23
2019-12-11 16:10:00     5
2019-12-11 16:12:00    14
2019-12-11 16:14:00    29
2019-12-11 16:16:00     2
2019-12-11 16:18:00    25
2019-12-11 16:20:00     0
2019-12-11 16:22:00    23
2019-12-11 16:24:00    19
2019-12-11 16:26:00     6
2019-12-11 16:28:00    12
Freq: 2T, dtype: int64

In [34]:
seriec = seriea+serieb
seriec

2019-12-11 16:00:00    37.0
2019-12-11 16:01:00     NaN
2019-12-11 16:02:00    21.0
2019-12-11 16:03:00     NaN
2019-12-11 16:04:00    51.0
2019-12-11 16:05:00     NaN
2019-12-11 16:06:00    28.0
2019-12-11 16:07:00     NaN
2019-12-11 16:08:00    31.0
2019-12-11 16:09:00     NaN
2019-12-11 16:10:00    13.0
2019-12-11 16:11:00     NaN
2019-12-11 16:12:00    22.0
2019-12-11 16:13:00     NaN
2019-12-11 16:14:00    46.0
2019-12-11 16:16:00     NaN
2019-12-11 16:18:00     NaN
2019-12-11 16:20:00     NaN
2019-12-11 16:22:00     NaN
2019-12-11 16:24:00     NaN
2019-12-11 16:26:00     NaN
2019-12-11 16:28:00     NaN
dtype: float64

In [37]:
sum(seriec)/len(seriec)

nan

In [38]:
seriec.mean()

31.125