<img src="Tarjeta.png">

# Introducción

Pandas es una librería open source Python para realizar análisis de datos. 
Aunque que Python es ya de por si un buen lenguaje para la preparación de datos, nunca ha sido excelente para realizar análisis (tendencia de usar R, SQL o incluso Excel para realizar este tipo de tareas), hasta la llegada de Pandas!

Pandas ofrece:
- Alta performance, 
- Estructura de datos fácil de usar, en formato tablas (parecido a Series y Data Frames en R)
- Excelentes herramientas para realizar análisis de datos: reformatear, concatenar, agregar, ordenar, segmentar etc.
- Tratamiento para missing data (o valores nulos)

Para más info, visitar la web oficial

[Pandas webpage](http://pandas.pydata.org)

## Importar pandas

In [1]:
import pandas as pd 

## Estructuras de datos en Pandas

Pandas introduce dos nuevas estructura de datos a Python:
- Series - estructuras 1d
- DataFrames - estructuras nd
ambas construidas sobre NumPy; lo que las hace dos estructura de datos rápidas.

Las Series son esencialmente una columna,  
y un DataFrame es una tabla multi-dimensional generada a partir de un conjunto de Series.

![title](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

Los DataFrames y las Series son parecidos en el sentido de que la mayoría de operaciones se pueden realizar sobre ambos, como rellenar los valores nulos o calcular una media. 

|Estructura de Datos|Dimensiones|Descripción|
|---|---|:---| 
|Series	|1|Array homogéneo 1D etiquetado, inmutable en tamaño|
|Data Frames|2|Estructura tabular 2D etiquetada, modificable en tamaño y con columnas potencialmente heterogéneas|

# Series en Pandas

**Definición**
Una Serie es un array 1-d que contiene todo tipo de datos (enteros, texto, decimals, objetos de Python, etc.). Vendría a ser una columna de un excel. 

Las etiquetas de los elementos reciben el nombre de índice y cada elemento de una serie tienen asignado un índice etiquetado. 

Por default, cada elemento tienen una etiqueta de índice numérica, de 0 a N.

\begin{equation*}
Índices\_Serie= 0, 1, ..., N
\end{equation*}


Por lo que N, último índice de la serie expresa:

\begin{equation*}
N = longitud(Series) - 1
\end{equation*}


**Parámetros en una Serie de Pandas**:

- *data*: El valor o valores que tenga tu serie
- *index*: El índice asignado al valor que contiene tu Serie
- *dtype*: El tipo de valores de la Serie
- *copy*: Este parámetro permite copiar los datos que introdujiste

## Generación de Series: pd.Series()

El método básico para crear una serie con Pandas es llamar la función:

In [1]:
import pandas as pd

In [2]:
pd.Series?

El primer argumento, **data**, puede contener diferentes tipos de datos:
- un *diccionario* de Python (dict)
- un *ndarray* de NumPy (ndarray)
- un valor escalar 

El segundo elemento, **index**, es una lista de etiquetas para cada elemento de la lista. 

Según el tipo de **data** que le pasamos a la lista, tenemos distintos casos de Series

Existen muchas maneras de crear una Serie, pero nos encontraremos con las tres más comunes:
-  A partir de una lista ([ ])
- A partir de un NumPy array (ndarray)
- A partir de un Diccionario de Python 

### Generar una Serie a partir de una lista

In [3]:
nombres = ["Elena", "Marcos", " Judith", "Sofía", "Estefanía"]

In [9]:
nombres

['Elena', 'Marcos', ' Judith', 'Sofía', 'Estefaníaaaaa']

In [None]:
#crear una serie de nombre mi_serie que contenga esta lista de nombres

In [10]:
mi_serie = pd.Series(data = nombres)

In [8]:
mi_serie

0            Elena
1           Marcos
2           Judith
3            Sofía
4    Estefaníaaaaa
dtype: object

In [341]:
type(nombres)

list

In [338]:
nombres_clase = pd.Series(data = nombres)

In [339]:
nombres_clase

0            Elena
1           Marcos
2           Judith
3            Sofía
4    Estefaníaaaaa
dtype: object

In [342]:
type(nombres_clase)

pandas.core.series.Series

In [10]:
pd.Series?

Al no especificar una etiqueta (*index*) a la Serie, por default, se ha asignado una etiqueta con el índice de la posición que ocupa cada elemento en la Serie. 

Pero **siempre estamos a tiempo de asignar una lista de etiquetas a los valores de nuestra Serie**

In [4]:
lista_estudiantes = ["Estudiante 1", "Estudiante 2","Estudiante 3","Estudiante 4","Estudiante 5"]

In [5]:
len(nombres) == len(lista_estudiantes)

True

In [6]:
mi_serie2 = pd.Series(data=nombres, index = lista_estudiantes)

In [7]:
nombres

['Elena', 'Marcos', ' Judith', 'Sofía', 'Estefanía']

In [11]:
mi_serie

0        Elena
1       Marcos
2       Judith
3        Sofía
4    Estefanía
dtype: object

In [12]:
mi_serie2

Estudiante 1        Elena
Estudiante 2       Marcos
Estudiante 3       Judith
Estudiante 4        Sofía
Estudiante 5    Estefanía
dtype: object

In [13]:
nombres_clase = pd.Series(data=nombres, index=lista_estudiantes)
nombres_clase

Estudiante 1        Elena
Estudiante 2       Marcos
Estudiante 3       Judith
Estudiante 4        Sofía
Estudiante 5    Estefanía
dtype: object

### Generar una Serie a partir de un *ndarray()*

Si los datos que pasamos a pd.Series() son un **ndarray()**, el índice tiene que tener la misma longitud que el array pasado. 

Si no se especificara una lista de índices, se generarán índices automáticamente según: [0, ..., len(data)-1]

#### Sin etiquetas asignadas

Si no especificamos índices, se asignará automáticamente una etiqueta como índice para cada elemento; de 0 a N, donde N es la longitud de la serie - 1

In [24]:
print("Queremos crear una Serie a partir de un array de 5 elementos => \n")
array_5_items = np.random.randn(5)
array_5_items

Queremos crear una Serie a partir de un array de 5 elementos => 



array([-1.66590908, -0.45746794,  0.2779818 ,  0.36000843, -0.10791267])

In [25]:
s_sinind = pd.Series(data = array_5_items)

In [26]:
s_sinind

0   -1.665909
1   -0.457468
2    0.277982
3    0.360008
4   -0.107913
dtype: float64

#### Especificando etiquetas

In [346]:
print("Queremos crear una Serie a partir de un array de 5 elementos => \n")

array_5_items = np.random.randn(5)

array_5_items

Queremos crear una Serie a partir de un array de 5 elementos => 



array([-0.11911863,  1.80302304, -0.33932347, -0.5284901 ,  0.8993085 ])

In [29]:
print("y queremos asignar una etiqueta a cada elemento en la serie resultante => \n")

lista_5_indices = ['e','e','e','e','e']

print(lista_5_indices)

y queremos asignar una etiqueta a cada elemento en la serie resultante => 

['e', 'e', 'e', 'e', 'e']


In [30]:
print("Comprobamos tenemos una etiqueta para cada elemento!\n")

len(array_5_items) == len(lista_5_indices)

Comprobamos tenemos una etiqueta para cada elemento!



True

In [31]:
print("La serie resultanto coge los datos del array y las etiquetas de la lista => \n")
s = pd.Series(data = array_5_items, index=lista_5_indices)
s

La serie resultanto coge los datos del array y las etiquetas de la lista => 



e   -1.665909
e   -0.457468
e    0.277982
e    0.360008
e   -0.107913
dtype: float64

Hemos creado una Serie de Pandas mediante un array (que contiene 5 números float aleatorios) etiquetados según una list. 

En la columna de la izquierda tenemos los índices y en la de la derecha tenemos los datos

##### Importante! 
pandas **permite valores de índice duplicados**. 
Si se quisiera aplicar una operación o método que no permite índices duplicados, saltaría un error. 

El motivo por el que permite índices duplicados es porque pd.Series() está oriento a un alto rendimiento mediante métodos que no usan el índice

### Generar una Serie desde un escalar

También es posible crear una serie desde un valor escalar, siempre que se asigne un índice. 

**Importante!** El valor escalar aparecerá en la Serie tantas veces como índices otorguemos a la Serie!

##### EJEMPLO

In [33]:
pd.Series?

In [32]:
serie_de_numero = pd.Series(data = 5, index = ['número'])
serie_de_numero

número    5
dtype: int64

In [23]:
serie_de_numero = pd.Series(5, index=['numero1', 'numero2','numero3'])
serie_de_numero

numero1    5
numero2    5
numero3    5
dtype: int64

### Generar una serie a partir de un diccionario 

Las series se pueden iniciar a partir de diccionarios, usando las claves del diccionario como índice


**Importante!** Cuando los datos de la serie (*data*), los índices de la serie se ordenan según el orden de inserción del diccionario. 

##### EJEMPLO

In [35]:
mi_diccionario = {'a':1, 'b':2, 'c':3,'d':4 }

In [11]:
type(mi_diccionario)

dict

In [12]:
mi_diccionario

{'a': 1, 'b': 2, 'c': 3, 'd': 4}

In [36]:
mi_serie = pd.Series(mi_diccionario)
mi_serie

a    1
b    2
c    3
d    4
dtype: int64

In [13]:
mi_serie_de_diccionario = pd.Series(mi_diccionario)

In [14]:
type(mi_serie_de_diccionario)

pandas.core.series.Series

In [15]:
mi_serie_de_diccionario

a    1
b    2
c    3
d    4
dtype: int64

##### EJEMPLO

In [327]:
d = {'Barcelona': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}
ciudades = pd.Series(d)
ciudades

Barcelona        1000.0
Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

## Básicos de Series

### Índices y Valores

Como comentado, una Serie consta de dos elementos:
- Etiquetas o Índices
- Valores de la Serie

####  Índices de una Serie

Los índices son **el nombre o etiqueta que acompaña cada valor de una Serie**.

Para obtener los índices de una Serie, usaremos el método index(), que nos devuelve en formato Index las etiquetas de los valores de una serie.

Hablaremos de:
- etiquetas cuando especificamos el nombre de cada elemento
- índices cuando no especificamos etiquetas para cada elemento y se asigna un índice numérico que indica la posición que ocupa el elemento en la serie

Para **obtener los índices o etiquetas de una Serie usaremos el comando .index**:

In [None]:
# Generar un diccionario con 4 ciudades del mundo como keys y un número como valor
# Generar una serie a partir del diccionario
# Modificar el nombre de las keys por letras de a- d
# Sacar los index de la serie
# Sacar los valores de la serie

In [19]:
d = {'Barcelona': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}


ciudades = pd.Series(d)

ciudades.index

Index(['Barcelona', 'Nueva York', 'Madrid', 'San Francisco', 'Valencia',
       'Boston'],
      dtype='object')

In [20]:
ciudades

Barcelona        1000.0
Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [21]:
d = {'Barcelona': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}
ciudades = pd.Series(d)


print("Las etiquetas de mi Serie son => \n", ciudades.index)

Las etiquetas de mi Serie son => 
 Index(['Barcelona', 'Nueva York', 'Madrid', 'San Francisco', 'Valencia',
       'Boston'],
      dtype='object')


In [22]:
lista_valores = [1000.0, 1300.0,900.0, 1100.0, 450.0, np.nan]

cifras = pd.Series(lista_valores)

print("Los índices de mi Serie son => \n", cifras.index)

Los índices de mi Serie son => 
 RangeIndex(start=0, stop=6, step=1)


In [23]:
cifras

0    1000.0
1    1300.0
2     900.0
3    1100.0
4     450.0
5       NaN
dtype: float64

#### Valores de una Serie

Los valores de una Serie son los elementos que la conforman. Para obtener los valores de una Serie usaremos el método values(), que nos devuelve en un array los valores de la serie.

In [24]:
ciudades

Barcelona        1000.0
Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [25]:
ciudades.values

array([1000., 1300.,  900., 1100.,  450.,   nan])

In [26]:
ciudades.values.reshape((2,3))

array([[1000., 1300.,  900.],
       [1100.,  450.,   nan]])

### Acceder a Elementos

#### A partir del Índice

Para acceder a un elemento de una Serie mediante el índice (no la etiqueta) es **análogo a acceder a un elemento de una lista** (*list( )* ) ya que obviamos la existencia de una columna de étiquetas, **y una serie sin etiquetas es esencialmente una lista**! 

In [34]:
d = {'Nueva York': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}

In [35]:
#generar una Serie del diccionario de ciudades

In [36]:
mi_serie = pd.Series(data = d)

In [37]:
mi_serie

Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [38]:
#quiero sacar el segundo elemento de mi Serie

In [39]:
mi_serie[1]

900.0

In [40]:
mi_serie["Nueva York"]

1300.0

In [41]:
d = {'Nueva York': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}
ciudades = pd.Series(d)
ciudades

Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [42]:
print("Accedemos al primer elemento de la lista => \n")
ciudades[0]

Accedemos al primer elemento de la lista => 



1300.0

In [43]:
ciudades["Nueva York"]

1300.0

Análogo a si tuvieramos una lista con los valores de la Serie  y quisiéramos acceder al primer elemento!

In [44]:
lista_valores = [1000.0, 1300.0,900.0, 1100.0, 450.0, np.nan]
lista_valores[0]

1000.0

#### A partir de la Etiqueta

Para acceder a un elemento de la Serie a partir de su etiqueta, simplemente tenemos que acceder a la lista de etiquetas con la etiqueta determinada, y la Serie nos devolverá el valor vinculado a la etiqueta

In [372]:
ciudades['Barcelona']

1000.0

Además, podemos acceder a varios elementos de la serie especificando las etiquetas correspondientes dentro de una lista

In [59]:
ciudades[[0,1,2]]

Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
dtype: float64

### Cambiar Índices

Imaginemos que queremos cambiar los índices de una serie.
Cómo lo haríamos?

#### Cambiar todos los índices

Existen varias alternativas para cambiar los índices de una list

##### EJEMPLO - Reasignando Serie con nuevos índices

In [45]:
ciudades

Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [46]:
nuevos_indices = ['Poblacion 1', 'Poblacion 1', 'Poblacion 3', 'Poblacion 4', 'Poblacion 5']

In [47]:
ciudades.values

array([1300.,  900., 1100.,  450.,   nan])

In [48]:
ciudades_2 = pd.Series(ciudades.values, index=nuevos_indices)
ciudades_2

Poblacion 1    1300.0
Poblacion 1     900.0
Poblacion 3    1100.0
Poblacion 4     450.0
Poblacion 5       NaN
dtype: float64

In [49]:
ciudades_2['Poblacion 1']

Poblacion 1    1300.0
Poblacion 1     900.0
dtype: float64

#### Modificando índices directamente - .index

In [50]:
ciudades.index

Index(['Nueva York', 'Madrid', 'San Francisco', 'Valencia', 'Boston'], dtype='object')

In [51]:
ciudades.index = nuevos_indices

In [52]:
ciudades

Poblacion 1    1300.0
Poblacion 1     900.0
Poblacion 3    1100.0
Poblacion 4     450.0
Poblacion 5       NaN
dtype: float64

### Cambiar Valores

Accediendo al valor de un elemento de la serie mediante su etiqueta o índice, podemos reasignarle un nuevo valor modificando así la Serie original

In [53]:
print("La Población 1 tiene originalmente: ",ciudades['Poblacion 1'],"habitantes" )

ciudades['Poblacion 1'] = 2000.0

print('Pero ahora tiene :', ciudades['Poblacion 1'], "habitantes")

La Población 1 tiene originalmente:  Poblacion 1    1300.0
Poblacion 1     900.0
dtype: float64 habitantes
Pero ahora tiene : Poblacion 1    2000.0
Poblacion 1    2000.0
dtype: float64 habitantes


### Comprobar si existe un Elemento

Las etiquetas son los nombres de los valores, así que si queremos saber si existe un elemento en una Serie lo comprobaremos mirando si su etiqueta aparece en la Serie

In [385]:
ciudades

Poblacion 1    2000.0
Poblacion 2    1300.0
Poblacion 3     900.0
Poblacion 4    1100.0
Poblacion 5     450.0
Poblacion 6       NaN
dtype: float64

In [386]:
print('Poblacion 2' in ciudades)

True


In [388]:
print('Poblacion 7' in ciudades)

False


### Nombrar una Serie - name()

Aparte de los datos (*data*) y las etiquetas (*index*), las series también tienen un atributo que es el **nombre de la serie** (*name*), que no es lo mismo que el nombre del objeto que contiene la serie!!

In [78]:
pd.Series?

In [430]:
s = pd.Series(np.random.randn(5), name='Mi función')

In [431]:
s

0   -0.532392
1   -3.112454
2   -0.438501
3   -0.294616
4    3.186930
Name: Mi función, dtype: float64

Podemos obtener el nombre de una función mediante la invocación del atributo *name*

In [432]:
s.name

'Mi función'

Además, toda Serie se puede renombrar mediante el método *rename( )*:

In [433]:
s2 = s.rename("Mi SUPER función")
s2.name

'Mi SUPER función'

## Funciones sobre Series

Las Series se comportan de forma similar a los ndarray de NumPy, así que la mayoría de métodos y funciones de NumPy aplican a las Series de Pandas. 

### Explorar una Serie 

#### Dimensiones - shape( ), count( )

El método **shape()** devuelve una tupla con el tamaño de la serie

In [247]:
s = pd.Series(np.random.randn(5), ['a','b','c','d','e'])
s

a    1.093824
b   -1.249984
c    0.518705
d   -0.196051
e    0.818933
dtype: float64

In [248]:
s.shape

(5,)

También podemos usar el método **count()** que devuelve el tamaño de la serie según **nº de elemento no nulos de la Serie**, como un entero

In [249]:
s.count()

5

In [84]:
len(s)

5

####  Imprimir líneas - head() y tail()

El método head() y tail() son útiles para visualizar de formar rápida como es la Serie sin tener que imprimirla toda en pantalla y gastar recursos.
- El método **head()** imprime las 5 primeras líneas de la Serie
- El método **tail()** imprime las 5 últimas líneas

In [256]:
s

a    1.093824
b   -1.249984
c    0.518705
d   -0.196051
e    0.818933
dtype: float64

In [85]:
s.head(3)

e   -1.665909
e   -0.457468
e    0.277982
dtype: float64

In [86]:
s.tail(1)

e   -0.107913
dtype: float64

En cualquier caso, se pueden especificar el nº de elementos que queremos imprimir

In [259]:
s.head(2)

a    1.093824
b   -1.249984
dtype: float64

In [261]:
s.tail(3)

c    0.518705
d   -0.196051
e    0.818933
dtype: float64

#### Estadísticas de una Serie

- Mínimo

In [251]:
s.min()

-1.2499842976823539

- Valor máximo

In [252]:
s.max()

1.0938244083677577

- Media de la Serie

In [253]:
s.mean()

0.19708545246937495

- Desviación estándar

In [254]:
s.std()

0.9411219599554942

#### Método describe() 

Este método devuelve un objeto serie con indice que informan de varias nociones estadísticas de la Serie, como las que hemos revisitado individualmente justo ahora

In [255]:
s.describe()

count    5.000000
mean     0.197085
std      0.941122
min     -1.249984
25%     -0.196051
50%      0.518705
75%      0.818933
max      1.093824
dtype: float64

### Operaciones Vectorizadas en Series

De la misma forma que los arrays de NumPy nos permiten trabajar con operaciones vectorizadas, elemento a elemento, sin tener que usar for loops, las Series de Pandas también nos permiten este tipo de operaciones.
Así, podemos usar la mayoría de métodos de NumPy para series de Pandas

#### Operaciones con Escalares

**EJERCICIO**

Generar una serie a partir de un array de números aleatorios, 

arr = np.random.randn(20)
- describir la serie
- imprimir primeros 6 elementos
- imprimir últimos 4 elementos
- sumar 2 a la serie
- dividir por 40

In [87]:
arr1 = np.random.randn(20)
series1 = pd.Series(arr1)
series1

0    -1.238885
1     1.115495
2     0.769747
3     0.607002
4     2.444681
5    -0.892723
6    -0.619843
7    -0.080347
8     1.152964
9     0.619545
10   -0.952586
11   -0.190146
12   -0.101838
13    0.909312
14    0.159007
15   -0.276578
16    0.527529
17    1.335700
18    0.256596
19    0.309282
dtype: float64

In [88]:
series1.describe()

count    20.000000
mean      0.292696
std       0.888831
min      -1.238885
25%      -0.211754
50%       0.282939
75%       0.804638
max       2.444681
dtype: float64

In [89]:
series1.head(6)

0   -1.238885
1    1.115495
2    0.769747
3    0.607002
4    2.444681
5   -0.892723
dtype: float64

In [90]:
series1.tail(4)

16    0.527529
17    1.335700
18    0.256596
19    0.309282
dtype: float64

In [92]:
series1/

0    -0.030972
1     0.027887
2     0.019244
3     0.015175
4     0.061117
5    -0.022318
6    -0.015496
7    -0.002009
8     0.028824
9     0.015489
10   -0.023815
11   -0.004754
12   -0.002546
13    0.022733
14    0.003975
15   -0.006914
16    0.013188
17    0.033392
18    0.006415
19    0.007732
dtype: float64

In [416]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

In [417]:
s + 2

a    2.060750
b    3.137033
c    4.502979
d    3.775316
e    3.897223
dtype: float64

In [418]:
s * 2

a    0.121499
b    2.274065
c    5.005958
d    3.550631
e    3.794445
dtype: float64

In [419]:
s / 3

a    0.020250
b    0.379011
c    0.834326
d    0.591772
e    0.632408
dtype: float64

#### Funciones de NumPy

Y como decíamos, podemos aplicar las funciones de NumPy tranquilamente:

In [420]:
np.exp(s)

a     1.062633
b     3.117503
c    12.218839
d     5.902144
e     6.667350
dtype: float64

#### Funciones vectorizadas

**Importante!** Una diferencia sustancial entre las Series y un array de NumPy es que las operaciones entre Series se alinean automáticamente en base a las etiquetas. Es decir, puedes realizar **cálculos sin tener que considerar si las Series involucradas tienen las mismas etiquetas**, eso se gestiona automáticamente.

**Importante!** El resultado de una operación entre Series *desalineadas*, en el sentido que tienen distinas etiquetas, resultará en la **unión de los índices involucrados**. 

**Si una etiqueta no se encuentra en el conjunto de etiquetas de la otra Serie** la Serie resultante **contendrá esta etiqueta pero con un elemento vacío NaN**. 

Eso proporciona una ventaja y flexibilidad enorme a la hora de desarrollar análisis de datos y representa. un aspecto diferencial de Pandas respecto a otras herramientas para trabajar con datos etiquetados.

###### EJEMPLO - Suma de Series con mismos índices

In [421]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

In [422]:
s+s

a    1.806725
b    0.079707
c   -2.741632
d    0.529900
e   -0.198905
dtype: float64

##### EJEMPLO - Resta de Series con *mismatched* índices

In [95]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a   -0.202553
b    0.981862
c    2.550728
d   -3.067679
e    0.359007
dtype: float64

In [96]:
a = pd.Series(np.random.randn(5), index=['h', 'b', 'c', 'd', 'e'])
a

h    0.518068
b    0.258594
c   -0.418824
d   -0.076788
e   -1.546044
dtype: float64

In [97]:
s + a 

a         NaN
b    1.240456
c    2.131904
d   -3.144468
e   -1.187037
h         NaN
dtype: float64

In [425]:
a

h    0.864882
b    0.711678
c   -0.137657
d   -0.491053
e    1.033521
dtype: float64

In [426]:
s - a

a         NaN
b   -0.671825
c   -1.233159
d    0.756003
e   -1.132973
h         NaN
dtype: float64

## Slice de una Serie

Seleccionar elementos de una Serie se basa en varias condiciones que revisaremos a continuación

### Por Etiquetas

In [55]:
array = [1.0,2.0,3.0, 4.0]
mi_serie = pd.Series(data = array)
mi_serie

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

In [56]:
mi_serie[0]

1.0

#### filter()

In [57]:
print ('filtramos y nos quedamos con etiquetas 1,2 =>\n')
print (mi_serie.filter(items=[1, 2]))


filtramos y nos quedamos con etiquetas 1,2 =>

1    2.0
2    3.0
dtype: float64


Que de hecho, es análogo a si especificamos lista de índices con los que nos queremos quedar!

In [63]:
mi_serie.filter(like='2')

2    3.0
dtype: float64

#### slicing [ ]

In [105]:
print ('Filtramos y nos quedamos con etiquetas 1,2,6 =>\n')
print (mi_serie[[1, 2]])


Filtramos y nos quedamos con etiquetas 1,2,6 =>

1    2.0
2    3.0
dtype: float64


In [194]:
subset_indices = [1,2,6]
print (x[subset_indices])

1    2.0
2    3.0
6    6.0
dtype: float64


##### EJEMPLO

In [64]:
ciudades = ['Barcelona','Madrid','Tokio']
index_ciudades = ['Ciudad 1', 'Ciudad 2', 'Ciudad 3']  


In [65]:
mi_serie = pd.Series(data = ciudades, index = index_ciudades)
mi_serie

Ciudad 1    Barcelona
Ciudad 2       Madrid
Ciudad 3        Tokio
dtype: object

In [66]:
#filtrar elemento ciudad 1 y ciudad 2 mediante el método filter()

In [70]:
filtro = ["Ciudad 1", "Ciudad 2"]

mi_serie.filter(items=filtro)

Ciudad 1    Barcelona
Ciudad 2       Madrid
dtype: object

In [None]:
#filtrar elemento ciudad 1 y ciudad 3 mediante slicing []

In [114]:
mi_serie[ ["Ciudad 1", "Ciudad 2"]  ]

Ciudad 1    Barcelona
Ciudad 2       Madrid
dtype: object

In [73]:
subset_ciudades = ['Ciudad 2', 'Ciudad 4']

In [76]:
dos_ciudades = mi_serie.filter(items = subset_ciudades) 
dos_ciudades

Ciudad 2     Madrid
Ciudad 4    Chicago
dtype: object

In [75]:
mi_serie['Ciudad 4'] = 'Chicago'

In [242]:
print (ciudades[subset_ciudades])

Ciudad 2     Madrid
Ciudad 4    Chicago
dtype: object


### Por Índices

También es posible filtrar mediante la posición que ocupan los elementos en la serie, es decir, no mediante las etiquetas sino por índices

In [77]:
s = pd.Series(np.random.randn(10), ['a','b','c','d','e','f','g','h','i','j'])
s

a   -0.930653
b    1.635263
c    1.447196
d   -0.610289
e   -0.057787
f   -1.204226
g   -0.422089
h   -0.862509
i    0.132016
j    0.415283
dtype: float64

In [78]:
print ('Filtramos y nos quedamos con el 1r y 3r elementos =>\n')
print (s[[0,2]])

Filtramos y nos quedamos con el 1r y 3r elementos =>

a   -0.930653
c    1.447196
dtype: float64


In [79]:
print ('Filtramos y nos quedamos con un subset hasta el 4o elementos =>\n')
print (s[:4])

Filtramos y nos quedamos con un subset hasta el 4o elementos =>

a   -0.930653
b    1.635263
c    1.447196
d   -0.610289
dtype: float64


#### Por condiciones Booleanas sobre los Valores

In [80]:
s

a   -0.930653
b    1.635263
c    1.447196
d   -0.610289
e   -0.057787
f   -1.204226
g   -0.422089
h   -0.862509
i    0.132016
j    0.415283
dtype: float64

In [81]:
s[s < 0]

a   -0.930653
d   -0.610289
e   -0.057787
f   -1.204226
g   -0.422089
h   -0.862509
dtype: float64

In [82]:
s[(s > 0) & (s < 2)]

b    1.635263
c    1.447196
i    0.132016
j    0.415283
dtype: float64

In [83]:
s[(s > 0) | (s < 2)]

a   -0.930653
b    1.635263
c    1.447196
d   -0.610289
e   -0.057787
f   -1.204226
g   -0.422089
h   -0.862509
i    0.132016
j    0.415283
dtype: float64

In [283]:
s[s > s.median()]

a    0.338581
b    1.619666
c    0.104276
d    0.021430
i    0.813317
dtype: float64

#### Por Rango de Valores - between( )

El método between() nos permite devolver una Serie de valores booleanos indicando si cada elemento de la serie está dentro del rango especificado

In [84]:
import pandas as pd

In [85]:
s = pd.Series(np.random.randn(10), ['a','b','c','d','e','f','g','h','i','j'])
s

a   -1.423940
b    0.307512
c    1.073986
d   -0.173098
e   -0.241763
f   -0.629002
g   -0.125687
h   -0.212797
i    1.236760
j   -0.721242
dtype: float64

In [86]:
s.between(0,1)

a    False
b     True
c    False
d    False
e    False
f    False
g    False
h    False
i    False
j    False
dtype: bool

Mediante esta Serie booleana que nos devuelve el *between()* **podemos generar una nueva serie con los valores True que cumplen la condición del between()**

In [87]:
s[s.between(0,1)]

b    0.307512
dtype: float64

## Concatenar Series - append()

### Concatenación de Series

#### append()

Añadir elementos a una Serie es posible mediante el método append(). 

El argumento de append() es un objeto Series o bien una lista o tupla de objetos Serie

In [101]:
serie_1  = pd.Series(np.random.randint(6,size=4), index = ["a","b","c","d"])
serie_1

a    0
b    4
c    0
d    2
dtype: int32

In [94]:
serie_2 = pd.Series(2000, index = ["a"])
serie_2

a    2000
dtype: int64

In [91]:
serie_1.append(serie_2,ignore_index=True)

0       3
1       4
2       0
3       4
4    2000
dtype: int64

Al no especificar índices, cada serie se inicia con el índice 0.
Ahora probaremos de concatenar ambas series en una sóla. 

**¿Qué pasará con los índices?**

In [95]:
serie_2.append(serie_1)

a    2000
a       3
b       4
c       0
d       4
dtype: int64

In [96]:
serie_1.append(serie_2)

a       3
b       4
c       0
d       4
a    2000
dtype: int64

Vemos que simplemente se ha añadidoa la *serie_2* debajo de la *serie_1* conservando su índice original; **por lo que ahora tenemos un índice duplicado, el a**

#### append() con reetiquetado

Esto nos puede dar problemas ya que si quisiéramos acceder al elemento con índice 0 el programa nos devolverá tantas filas como índices sean 0!

In [97]:
serie_concatenada = serie_1.append(serie_2)
serie_concatenada[[0]]

a    3
dtype: int64

**Para evitar indices duplicados al concatenar Series, especificamos el re-etiquetado mediante el parámetro ignore_index=True** que lo que hace es reetiquetar la nueva serie entera y **evita índices duplicados**

In [99]:
serie_1.append(serie_2, ignore_index=True)

0       5
1       3
2       1
3       0
4    2000
dtype: int64

In [100]:
serie_1.append(serie_2, ignore_index=True)[[0]]

0    5
dtype: int64

#### append() manteniendo índices y evitando índices duplicados

Pero, qué pasa si quisiéramos mantener los índices originales de las series anexadas, pero evitando índices duplicados entre ambas Series?

Podemos conseguirlo mendiante el comando *verify_integrity=True*, que básicamente nos indicará mediante un *Error* que hay duplicidad de índices y parará la ejecución!

In [102]:
serie_1.append(serie_2, verify_integrity=True)

ValueError: Indexes have overlapping values: Index(['a'], dtype='object')

## Ordenar Serie

Una Serie puede ordenarse por etiquetas o por valores!

### Por Índices o Etiquetas - sort_index( )

Al ordenar por etiquetas, si las etiquetas son alfabéticas se ordenará en orden del abecedario, mientras que si son numéricas, se ordenará por orden numérico ascendiente de forma predeterminada

Si queremos, podemos especificar el orden (ascendiente o descendiente) mediante el parámetro:
- *ascending* = True or False

##### Orden alfabético

In [144]:
s = pd.Series(np.random.randn(10), ['a','c','b','f','d','g','e','h','i','j'])
s

a   -1.485169
c   -0.507634
b   -1.471026
f   -0.274172
d    0.802779
g    0.941974
e    1.118769
h    0.589304
i    2.891354
j    0.587007
dtype: float64

In [157]:
print ('Ordenamos por índice - orden alfabético: =>\n')

s.sort_index(ascending = False)

Ordenamos por índice - orden alfabético: =>



j    0.587007
i    2.891354
h    0.589304
g    0.941974
f   -0.274172
e    1.118769
d    0.802779
c   -0.507634
b   -1.471026
a   -1.485169
dtype: float64

In [306]:
s.sort_index(ascending=False)

j   -0.611423
i    2.678192
h    1.085656
g   -0.659125
f    1.112611
e   -0.886857
d    0.321013
c    1.645842
b    1.332092
a    2.371885
dtype: float64

##### Orden numérico

In [148]:
x = pd.Series(np.random.randn(4), [2,3,49,10])
x

2    -0.704078
3    -0.092047
49    0.489489
10   -0.632945
dtype: float64

In [150]:
print ('Ordenamos por índice - orden numérico ascendente: =>\n')

x.sort_index(ascending = False)

Ordenamos por índice - orden numérico ascendente: =>



49    0.489489
10   -0.632945
3    -0.092047
2    -0.704078
dtype: float64

In [307]:
print ('Ordenamos por índice - orden numérico descendiente: =>\n')

x.sort_index(ascending=False)

Ordenamos por índice - orden numérico descendiente: =>



49    0.195921
10   -0.427822
3    -0.696551
2    -0.905034
dtype: float64

### Por Valores - sort_values()

Mediante sort_values() ordenaremos la serie según el valor de sus elementos. 

Podemos especificar el orden según el parámetro *ascending= True, False*

##### EJEMPLO

In [151]:
print ('Ordenamos por valor - orden numérico ascendiente: =>\n')

x.sort_values()

Ordenamos por valor - orden numérico ascendiente: =>



2    -0.704078
10   -0.632945
3    -0.092047
49    0.489489
dtype: float64

In [153]:
print ('Ordenamos por valor - orden numérico descendiente: =>\n')

x.sort_values()

Ordenamos por valor - orden numérico descendiente: =>



2    -0.704078
10   -0.632945
3    -0.092047
49    0.489489
dtype: float64

##### EJEMPLO

In [310]:
print ('Ordenamos por valor - orden numérico ascendiente: =>\n')

s.sort_values()

Ordenamos por valor - orden numérico ascendiente: =>



e   -0.886857
g   -0.659125
j   -0.611423
d    0.321013
h    1.085656
f    1.112611
b    1.332092
c    1.645842
a    2.371885
i    2.678192
dtype: float64

In [312]:
print ('Ordenamos por valor - orden numérico ascendiente: =>\n')

s.sort_values(ascending = False)

Ordenamos por valor - orden numérico ascendiente: =>



i    2.678192
a    2.371885
c    1.645842
b    1.332092
f    1.112611
h    1.085656
d    0.321013
j   -0.611423
g   -0.659125
e   -0.886857
dtype: float64

## Eliminar Elementos de una Serie

Existen varios métodos para eliminar elementos de una Serie. Veámoslos!

### Eliminar por Etiqueta - drop()

Mediante *drop()* podemos especificar una etiqueta o conjunto de etiquetas a eliminar, junto al valor al que está/n asignada/s.

**EJERCICIO**


Vamos a definir una serie mediante un array aleatorio de 5 elementos,

con etiquetas de la "a" a la "e"


- vamos a ordenar los elementos de la serie por orden descendente


- vamos a ordenar segun etiquetas por orden descendente


- vamos a eliminar la fila "d"

In [105]:
a = pd.Series(np.random.randn(5), index = ["a","b","c","d","e"])
a

a    0.417512
b   -1.420528
c   -1.165350
d   -1.341295
e    0.423258
dtype: float64

In [106]:
a.sort_values(ascending = False)

e    0.423258
a    0.417512
c   -1.165350
d   -1.341295
b   -1.420528
dtype: float64

In [107]:
a.sort_index(ascending = False)

e    0.423258
d   -1.341295
c   -1.165350
b   -1.420528
a    0.417512
dtype: float64

In [108]:
a = a.drop(["d"])

In [109]:
a

a    0.417512
b   -1.420528
c   -1.165350
e    0.423258
dtype: float64

Si queremos eliminar varios índices, pasamos una lista de índices a drop()

In [113]:
print ("Eliminamos elemento A,C y E =>\n",a.drop(['a','b','c']))

Eliminamos elemento A,C y E =>
 e    0.423258
dtype: float64


### Eliminar duplicados - drop_duplicates()

Para eliminar duplicados usaremos el método drop_duplicates, que actua sobre los valores de la Serie

In [114]:
x = pd.Series([1, 2, 2, 4, 5, 7, 3, 4])
x

0    1
1    2
2    2
3    4
4    5
5    7
6    3
7    4
dtype: int64

In [115]:
x.size

8

In [116]:
print("elimina valores duplicados => \n", x.drop_duplicates())

elimina valores duplicados => 
 0    1
1    2
3    4
4    5
5    7
6    3
dtype: int64


**Importante!** De forma prestablecida, el método drop_duplicates() se queda con el primer valor duplicado, eliminando los consiguientes.

**Si quisiéramos eliminar todos los elementos duplicados incluida la primera aparición, podemos especificar keep=False**

In [117]:
x.drop_duplicates(keep=False)

0    1
4    5
5    7
6    3
dtype: int64

In [118]:
x.drop_duplicates(keep=False).size

4

In [120]:
x

0    1
1    2
2    2
3    4
4    5
5    7
6    3
7    4
dtype: int64

In [119]:
x.drop_duplicates?

## Valores Nulos en Series

### Comprobar si existen nulos

In [121]:
d = {'Barcelona': 1000, 'Nueva York': 1300, 'Madrid': 900, 'San Francisco': 1100,
     'Valencia': 450, 'Boston': None}
ciudades = pd.Series(d)
ciudades

Barcelona        1000.0
Nueva York       1300.0
Madrid            900.0
San Francisco    1100.0
Valencia          450.0
Boston              NaN
dtype: float64

In [122]:
print("Existen ciudades con valores nulos?: \n")
ciudades.isnull()

Existen ciudades con valores nulos?: 



Barcelona        False
Nueva York       False
Madrid           False
San Francisco    False
Valencia         False
Boston            True
dtype: bool

In [125]:
ciudades.isnull().sum()

1

In [123]:
print("Existen ciudades SIN valores nulos?: \n")
ciudades.notnull()

Existen ciudades SIN valores nulos?: 



Barcelona         True
Nueva York        True
Madrid            True
San Francisco     True
Valencia          True
Boston           False
dtype: bool

### Eliminar  valores nulos NaN - dropna()

Para eliminar elementos sin valor de una Serie usaremos el método dropna()

In [126]:
y = pd.Series([1, 2, 3, 4, np.nan, 5, 6])
#creamos una serie que contiene en el 5º elemento un Nan

In [127]:
y

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
5    5.0
6    6.0
dtype: float64

In [128]:
y.size

7

In [129]:
y.count()

6

In [130]:
print ('elimina valores nulos =>\n', y.dropna())

elimina valores nulos =>
 0    1.0
1    2.0
2    3.0
3    4.0
5    5.0
6    6.0
dtype: float64


In [131]:
y.dropna()

0    1.0
1    2.0
2    3.0
3    4.0
5    5.0
6    6.0
dtype: float64

In [132]:
y.dropna().size

6

In [133]:
y.dropna().count()

6

### Reemplaza valores nulos  - fillna()

Para reemplazar valores nulos de una Serie (NaN), usaremos el método fillna()

In [134]:
y

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
5    5.0
6    6.0
dtype: float64

In [135]:
print ('rellena valores nulos con un 0 =>\n', y.fillna(0))

rellena valores nulos con un 0 =>
 0    1.0
1    2.0
2    3.0
3    4.0
4    0.0
5    5.0
6    6.0
dtype: float64


El método se aplicará a todos los elementos nulos!

In [136]:
z = pd.Series([1, np.nan, 3, 4, np.nan, 5, 6])
z

0    1.0
1    NaN
2    3.0
3    4.0
4    NaN
5    5.0
6    6.0
dtype: float64

In [138]:
print ('rellena valores nulos con un 2 =>\n', z.fillna(z.mean()))

rellena valores nulos con un 2 =>
 0    1.0
1    3.8
2    3.0
3    4.0
4    3.8
5    5.0
6    6.0
dtype: float64


# RESUMEN de métodos sobre Series

## Métodos matemáticos

|Método|Description|
|:---|:---| 
|add()|Method is used to add series or list like objects with same length to the caller series|
|sub()|Method is used to subtract series or list like objects with same length from the caller series|
|mul()|Method is used to multiply series or list like objects with same length with the caller series|
|div()|Method is used to divide series or list like objects with same length by the caller series|
|sum()|Returns the sum of the values for the requested axis|
|prod()|Returns the product of the values for the requested axis|
|mean()|Returns the mean of the values for the requested axis|
|pow()|Method is used to put each element of passed series as exponential power of caller series and returned the results
|abs()|Method is used to get the absolute numeric value of each element in Series/DataFrame||
|cov()|Method is used to find covariance of two series|

##### EJEMPLO: metodos element-wise

In [23]:
x = pd.Series([1,2,4,5], ['a','b','c','d'])
x

a    1
b    2
c    4
d    5
dtype: int64

In [24]:
x.add(1)

a    2
b    3
c    5
d    6
dtype: int64

In [27]:
x.sub(1)

a    0
b    1
c    3
d    4
dtype: int64

In [28]:
x.mul(2)

a     2
b     4
c     8
d    10
dtype: int64

In [29]:
x.div(-1)

a   -1.0
b   -2.0
c   -4.0
d   -5.0
dtype: float64

In [34]:
x.pow(2)

a     1
b     4
c    16
d    25
dtype: int64

In [35]:
x.abs()

a    1
b    2
c    4
d    5
dtype: int64

#### EJEMPLO: métodos agg

In [30]:
x.sum()

12

In [31]:
x.prod()

40

In [32]:
x.mean()

3.0

##### EJEMPLO - serie vs. serie

In [38]:
y= pd.Series([1,2,4,5], ['a','b','c','d'])
y

a    1
b    2
c    4
d    5
dtype: int64

In [39]:
x.cov(y)

3.333333333333333

## Métodos exploratorios

<style> table {display: block} </style>
|Función|Descripción|
|---|------|
|combine_first()|Method is used to combine two series into one|
|count()|Returns number of non-NA/null observations in the Series|
|size()|Returns the number of elements in the underlying data|
|name()|Method allows to give a name to a Series object, i.e. to the column|
|is_unique()|Method returns boolean if values in the object are unique|
|idxmax()|Method to extract the index positions of the highest values in a Series|
|idxmin()|Method to extract the index positions of the lowest values in a Series|
|sort_values()|Method is called on a Series to sort the values in ascending or descending order|
|sort_index()|Method is called on a pandas Series to sort it by the index instead of its values|
|head()|Method is used to return a specified number of rows from the beginning of a Series. The method returns a brand new Series|
|tail()|Method is used to return a specified number of rows from the end of a Series. The method returns a brand new Series|
|le()|Used to compare every element of Caller series with passed series.It returns True for every element which is Less than or Equal to the element in passed series|
|ne()|Used to compare every element of Caller series with passed series. It returns True for every element which is Not Equal to the element in passed series|
|ge()|Used to compare every element of Caller series with passed series. It returns True for every element which is Greater than or Equal to the element in passed series|
|eq()|Used to compare every element of Caller series with passed series. It returns True for every element which is Equal to the element in passed series|
|gt()|Used to compare two series and return Boolean value for every respective element|
|lt()|Used to compare two series and return Boolean value for every respective element|
|clip()|Used to clip value below and above to passed Least and Max value|
|clip_lower()|Used to clip values below a passed least value|
|clip_upper()|Used to clip values above a passed maximum value|
|astype()|Method is used to change data type of a series|
|tolist()|Method is used to convert a series to list|
|get()|Method is called on a Series to extract values from a Series. This is alternative syntax to the traditional bracket syntax|
|unique()|Pandas unique() is used to see the unique values in a particular column|
|nunique()|Pandas nunique() is used to get a count of unique values|
|value_counts()|Method to count the number of the times each unique value occurs in a Series|
|factorize()|Method helps to get the numeric representation of an array by identifying distinct values|
|map()|Method to tie together the values from one object to another|
|between()|Pandas between() method is used on series to check which values lie between first and second argument|
|apply()|Method is called and feeded a Python function as an argument to use the function on every Series value. This method is helpful for executing custom operations that are not included in pandas or numpy|

Practiquemos algunos métodos exploratorios muy utilizados en la manipulación de datos.

In [156]:
Serie = pd.Series(np.random.randint(0, 10, 20))
Serie.head()

0    1
1    5
2    5
3    3
4    1
dtype: int32

In [157]:
Serie.unique()

array([1, 5, 3, 2, 4, 8, 0, 6, 9])

In [158]:
Serie.nunique()

9

In [159]:
Serie.value_counts()

9    4
5    4
3    3
6    2
2    2
1    2
8    1
4    1
0    1
dtype: int64

In [163]:
Serie.value_counts(normalize=True, bins=3)

(-0.009999999999999998, 3.0]    0.40
(3.0, 6.0]                      0.35
(6.0, 9.0]                      0.25
dtype: float64

In [165]:
Serie.astype(str)

0     1
1     5
2     5
3     3
4     1
5     2
6     4
7     3
8     8
9     0
10    6
11    9
12    3
13    9
14    2
15    5
16    9
17    6
18    9
19    5
dtype: object

In [167]:
Serie.map({6:6.55})

0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
8      NaN
9      NaN
10    6.55
11     NaN
12     NaN
13     NaN
14     NaN
15     NaN
16     NaN
17    6.55
18     NaN
19     NaN
dtype: float64

In [168]:
Serie.map(lambda x:x**2)

0      1
1     25
2     25
3      9
4      1
5      4
6     16
7      9
8     64
9      0
10    36
11    81
12     9
13    81
14     4
15    25
16    81
17    36
18    81
19    25
dtype: int64

In [176]:
Serie.map?

In [174]:
def hola(x):
    return x**2 + np.pi

In [175]:
Serie.apply(hola)

0      4.141593
1     28.141593
2     28.141593
3     12.141593
4      4.141593
5      7.141593
6     19.141593
7     12.141593
8     67.141593
9      3.141593
10    39.141593
11    84.141593
12    12.141593
13    84.141593
14     7.141593
15    28.141593
16    84.141593
17    39.141593
18    84.141593
19    28.141593
dtype: float64

Ejercicio: Escribir una función que reciba un diccionario con las notas de los alumnos en curso en un examen y devuelva una serie con las notas de los alumnos aprobados ordenadas de mayor a menor.

In [None]:
def aprobados(notas):
    notas = pd.Series(notas)
    return notas[notas >= 5].sort_values(ascending=False)

notas = {'Juan':9, 'María':6.5, 'Pedro':4, 'Carmen': 8.5, 'Luis': 5}
print(aprobados(notas))

# Referencias 

[Ref1](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html)

[Ref2](https://www.geeksforgeeks.org/numpy-in-python-set-1-introduction/)

[Ref3](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.Series.html)