## Dataframes

#### Introducción

**Dataframe**. Es una estructura bidimensional mutable de datos con los ejes etiquetados donde

* cada fila representa uan observación diferente.
* cada columna representa una variable diferente.

En `Python`, para definir un dataframe, en primer lugar necesitamos importar el módulo `pandas`.

In [1]:
import pandas as pd

A continuación, si queremos un dataframe de 5 filas y 2 columnas, podemos hacerlo a partir de un diccionario, una lista de listas, una lista de diccionarios, etc.

___

#### Ejemplo 1

Vamos a crear un dataframe de 5 filas y 2 columnas a partir de un diccionario.

Para ello, primero creamos un diccionario donde las claves serán los nombres de las columnas y los valores serán listas, con tantos elementos como número de filas queramos.

Finalmente, convertimos ese diccionario a dataframe con la función `DataFrame()` de `pandas`:

In [5]:
data = {
  'x': [1, 2, 3, 4, 5],
  'y': [2, 4, 6, 8, 10]
}

df1 = pd.DataFrame( data )
print( df1 )

   x   y
0  1   2
1  2   4
2  3   6
3  4   8
4  5  10


Como habíamos dicho, hemos creado un dataframe de 5 filas y 2 columnas, llamadas `x` e `y` respectivamente.

**Observación**. Como resultado del `print()`, no solamente hemos obtenido las 5 filas y 2 columnas, sino que hay una columna adicional de 5 números ordenados verticalemtne del 0 al 4. Se trata simplemente del nombre de cada fila, que por defecto es el índice de cada fila. El 0 indica la primera fila; el 1, la segunda; y así, sucesivamente.

#### Ejemplo 2

Vamos a crear el mismo dataframe de 5 filas y 2 columnas, pero esta vez a partir de una lista de listas.

En este caso, podemos hacerlo directamente con la función `DataFrame()` de `pandas`, usando los parámetros `data` y `columns`.

In [6]:
df2 = pd.DataFrame(
  data = [ [1,2], [2,4], [3,6], [4,8], [5, 10]],
  columns = ['x', 'y']
)

print( df2 )

   x   y
0  1   2
1  2   4
2  3   6
3  4   8
4  5  10


Al parámetro `data` le hemos proporcionado una lista de 5 listtas, donde cada una de las sublistas tiene 2 elementos: el perteneciente a la primera columna en la posición 0, y el perteneciente a la segunda columna en la posición 1.

Al parámetro `columns` le hemos proporcionado el nombre de las 2 columnas.

#### Ejemplo 3

Vamos a crear el mismo datafram de 5 filas y 2 columnas, con la defencia de que vamos a modificar el nombre de las filas.

Lo haremos a partir del diccionario `data` y utilizaremos el parámetro `index` de la función `DataFrame()` de `pandas`.

In [7]:
df3 = pd.DataFrame(
  data,
  index = ['obs1', 'obs2', 'obs3', 'obs4', 'obs5']
)

print( df3 )

      x   y
obs1  1   2
obs2  2   4
obs3  3   6
obs4  4   8
obs5  5  10


En este caso, al parámetro `index` le hemos pasado una lista con 5 strings.

**¡Cuidado!**. Al construir un dataframe a partir de un diccionario (o cualquier objeto de `Python` que contenga algún diccionario), los nombres de las columnas son las claves del diccionario. Si quisiésemos cambiarlos con el parámetro `columns` directamentet nos pasaría lo siguiente:

In [8]:
d = {
  'a': [1, 2, 3],
  'b': [4, 5, 6],
  'b1': [7, 8, 9]
}

df = pd.DataFrame(d, columns=['a', 'b', 'c'])
print( df )

   a  b    c
0  1  4  NaN
1  2  5  NaN
2  3  6  NaN


**Observación**. Si queremos crear un dataframe a partir de un diccionario, pero queremos menos columnas que total de calves tiene el diccionario, no hay problema, siempre y cuadno los nombres de las columnas indicados coincidan con las claves del diccionario.

In [9]:
# Construimos un dataframe solo con las columnas a y b del diccionario d
df = pd.DataFrame(d, columns=['a', 'b'])
print( df )

   a  b
0  1  4
1  2  5
2  3  6


#### Ejemplo 4

Vamos a crear el mismo dataframe de 5 filas y 2 columnas, esta vez a partir de una lista de diccionarios.

In [10]:
data: list[dict: [str, int]] = [
  {'x': 1, 'y': 2},
  {'x': 2, 'y': 4},
  {'x': 3, 'y': 6},
  {'x': 4, 'y': 8},
  {'x': 5, 'y': 10},
]

df4 = pd.DataFrame( data )
print( df4 )

   x   y
0  1   2
1  2   4
2  3   6
3  4   8
4  5  10


#### Ejemplo 5

Incluso podemos crear un dataframe haciendo uso de la función `zip()`.

Para ello, a partir de dos listas, creamos una lista de tuplas, que es la que proporcionamos al parámetro `data` de la función `DataFrame()` para contruir el dataframe.

In [11]:
x: list[int] = [ 1, 2, 3, 4, 5 ]
y: list[int] = [ 2, 4, 6, 8, 10 ]

data = list(zip( x, y ))
print( data )

[(1, 2), (2, 4), (3, 6), (4, 8), (5, 10)]


In [12]:
df5 = pd.DataFrame( data, columns = ['x', 'y'] )
print( df5 )

   x   y
0  1   2
1  2   4
2  3   6
3  4   8
4  5  10


#### Creando dataframes con `.from_dict()`

Para construir dataframes a partir de un diccionario, existe el método `.from_dict()`

In [11]:
d = {
  'a': [1, 2, 3],
  'b': [4, 5, 6],
  'b1': [7, 8, 9]
}

df = pd.DataFrame.from_dict( d )
print( df )

   a  b  b1
0  1  4   7
1  2  5   8
2  3  6   9


Lo interesante dee este método es que podemos crear un dataframe a partir de un diccionario donde cada clave represente una fila (observación) diferente, gracias al parámetro `orient`

In [12]:
d = {
  'fila1': [1, 4, 7],
  'fila2': [2, 5, 8],
  'fila3': [3, 6, 9]
}

df = pd.DataFrame.from_dict(d, orient='index', columns=['A', 'B', 'C'])
print( df )

       A  B  C
fila1  1  4  7
fila2  2  5  8
fila3  3  6  9


**¡Cuidado!** Para poder usar el parámetro `column` del método `.from_dict()`, necesitamos que el parámetro `orient` valga `index`.

**Observación**. Si no indicásemos el parámetro `orient`, por defecto vale `columns`, con lo cual el diccionario suministrado a `data` sería interpretado del siguiente modo: cada clave representaría una columna diferente, tal cual ocurría cuando no usábamos el método `from_dict()`. Si por el contrario indicamos que `orient='index'`, lo que estamos haciendo es decirle a `Python` que cada clave del diccionario representa una fila (observación) diferente.

#### Dimensiones del dataframe

Con el método `.shape` podemos calcular las dimensiones (número de filas y columnas) del dataframe.

In [13]:
df.shape

(3, 3)

Como resultado obtenemos una tupla donde el primer elemento es el número de filas, que en nuestro caso es 3, mientras que el segundo elemento es el número ded columnas, que en nuestro ejemplo es 3.

In [14]:
nrows = df.shape[0]
ncols = df.shape[1]
print(f'El número de filas de df es {nrows}')
print(f'El número de columnas de df es {ncols}')

El número de filas de df es 3
El número de columnas de df es 3


Con el método `.size` calculamos el número total de valores que tienes en el dataframe (número defilas por número de columnas)

In [15]:
df.size

9

In [16]:
df.shape[0] * df.shape[1] == df.size

True

Finalmente con el método `.ndim` calculamos el número de dimensiones que tiene el dataframe. Éste siempre valdrá 2, pues consta de filas y columnas.

In [17]:
df.ndim

2

#### Ejercicio

Vamos a crear un dataframe de 10 filas y 5 columnas

* La primera columna será *word* y contendrá 10 palabras
* la segunda columna será *length* y contendrá la longitud de cada palabra.
* La tercera columna será *start* y contendrá la primera letra de cada palabra.
* La cuarta columna será *end* y contendrá la última letra de cada palabra.
* La quinta columna será *isPalindromo* y contendrá valores booleanos indicando si cada palabra es o no un palíndromo.

A continuación, vamos a transformar la columna *word* en los nombres de las filas utilizando el método `.set_index()`.

Finalmente, calcularemos las dimensiones de nuestro dataframe.

In [22]:
def is_palindromo( word: str ) -> bool:
  """
  Devuelve si la palabra word es palíndromo
  Args:
    word: Palabra en formato string
  Returns:
    isPalindromo: Booleano
  """
  word = word.lower()
  l = []
  isPalindromo = True
  
  for c in word:
    l.append(c)
  
  n = len(l)
  for i in range(int(n / 2)):
    if l[i] != l[n - (i + 1)]:
      isPalindromo = False
  
  return isPalindromo

In [29]:
words = ['sol', 'ala', 'cama', 'duro', 'bueno', 'kayak', 'marea', 'rotor', 'misterio', 'acurruca']

data = {
  'word': words,
  'length': map(len, words),
  'start': map(lambda w: w[0], words),
  'end': map(lambda w: w[-1], words),
  'isPalindromo': map(is_palindromo, words)
}

words = pd.DataFrame(data)

words.head()

Unnamed: 0,word,length,start,end,isPalindromo
0,sol,3,s,l,False
1,ala,3,a,a,True
2,cama,4,c,a,False
3,duro,4,d,o,False
4,bueno,5,b,o,False


In [47]:
words = words.set_index('word')

In [43]:
words.head()

Unnamed: 0,word,length,start,end,isPalindromo
0,sol,3,s,l,False
1,ala,3,a,a,True
2,cama,4,c,a,False
3,duro,4,d,o,False
4,bueno,5,b,o,False


In [48]:
words.index.names = [None]
words.head()

Unnamed: 0,length,start,end,isPalindromo
sol,3,s,l,False
ala,3,a,a,True
cama,4,c,a,False
duro,4,d,o,False
bueno,5,b,o,False


In [49]:
words.shape

(10, 4)

#### Subdataframes

**Subdataframe**. Dado un dataframe, un subdataframe no es más que la selección de unas filas y columnas en particular.

##### Columnas

Dado un dataframe, podemos seleccionar una columna en particular de diversas formas:

* Indicando el nombre de la columna entre claudators, `[]`
+ Con el método `.columns[]`
* Con el método `.loc[]` (por nombre o etiqueta)
* Con el método `.iloc[]` (por posición)

In [3]:
fdata = {
  'Name': ['Alicia', 'Bill' , 'Carlos', 'Diana'],
  'Age': [22, 28, 19, 34],
  'Pet': [True, False, False, True],
  'Height': [157, 190, 175, 164],
  'Birthday': ['Mayo', 'Junio', 'Agosto', 'Diciembre']
}

df = pd.DataFrame(fdata, index = ['obs1', 'obs2', 'obs3', 'obs4'])

In [8]:
df

Unnamed: 0,Name,Age,Pet,Height,Birthday
obs1,Alicia,22,True,157,Mayo
obs2,Bill,28,False,190,Junio
obs3,Carlos,19,False,175,Agosto
obs4,Diana,34,True,164,Diciembre


In [4]:
# Seleccionamos la columna Birthday por nombre
print( df['Birthday'] )

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


In [5]:
# Seleccionamos la columna Birthday con el método .columns[]
print( df[df.columns[4]] )

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


In [9]:
# Seleccionamos la columna Birthday con el método .loc[]
print( df.loc[:, 'Birthday'])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


**Observación.** Al método `.loc[]` le hemos indicado que tome todas las filas con `:` en la primera posición y la columna `Birthday` directamente indicando su nombre en la segunda posición.

In [10]:
# Seleccionamos la columna Birthday con el método `.iloc[]`
print(df.iloc[:, 4])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


**Observación.** Al método `.iloc[]` le hemos indicado que tome todas las filas con `:` en la primera posición y la columna `"Birthday"` indicando el índice que ocupa como columna.

___

Si quisiésemos selecionar más de una columna, podríamos hacerlo con todas las opciones enumeradas anteriormente, con ligeras modificaciones en algunos casos:

In [11]:
# Seleccionamos las columnas Name y Age por nombre
print(df[['Name', 'Age']])

        Name  Age
obs1  Alicia   22
obs2    Bill   28
obs3  Carlos   19
obs4   Diana   34


#### Filas

Dado un dataframe, podemos seleccionar una fila en particular de diversas formas:

* Con el método `.loc[]` (por nombre o etiqueta).
* Con el método `.iloc[]` (por posición).

In [12]:
# Seleccionamos la primera observación (obs1) con el método .loc[]
print(df.loc['obs1'])

Name        Alicia
Age             22
Pet           True
Height         157
Birthday      Mayo
Name: obs1, dtype: object


In [13]:
# Seleccionamos la última observación con el método .iloc[]
print(df.iloc[-1])

Name            Diana
Age                34
Pet              True
Height            164
Birthday    Diciembre
Name: obs4, dtype: object


Si quisiésemos seleccionar más de una fila, podríamos hacerlo con todas las opciones enumeradas anteriormente, con ligeras modificaciones en algunos casos:

In [14]:
# Seleccionamos la segunda y tercera observación con el método .loc[]
print(df.loc[['obs2', 'obs3']])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


**Observación**. Además, como estas dos filas están seguidas en nuetro dataframe, podríamos también usar la sintaxis siguiente no solo en esta opción, sino también en el resto de opciones que hemos visto.

In [16]:
print(df.loc['obs2': 'obs3'])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


In [17]:
# Seleccionamos la segunda y tercerca observación con el método .iloc[]
print(df.iloc[[1, 2]])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


In [18]:
print(df.iloc[1:3])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


#### Filas y columnas

Para seleccionar un elemento en concreto, hay que indicar la fila y la columna y lo podemos hacer de dos formas:

* Con el método `.loc[]` (por nombre o etiqueta)
* Con el método `.iloc[]` (por índice)

In [20]:
# Seleccionamos la edad de la segunda observación con el método .loc[]
print(df.loc['obs2', 'Age'])

28


In [21]:
# Seleccionamos la edad de la segunda observación con el método .iloc[]
print(df.iloc[1, 1])

28


Si queremos seleccionar un subconjunto de filas y columnas, podemos utilizar los dos métodos anteriores

In [22]:
# Seleccionamos la segunda y tercera fila y las columnas nombre y cumpleaños
# Con el método .loc[]
print(df.loc['obs2': 'obs3', ['Name', 'Birthday']])

        Name Birthday
obs2    Bill    Junio
obs3  Carlos   Agosto


In [23]:
# Con el método .iloc[]
print(df.iloc[1:3, [0, 4]])

        Name Birthday
obs2    Bill    Junio
obs3  Carlos   Agosto


#### Métodos de dataframes

El método `.head()` sirve para visualizar las primeras filas del dataframe. Por defecto, se nos mostrarán las 5 primeras.

In [37]:
d = {
  'fruit': ['sandía', 'melón', 'manzana', 'cerezas', 'plátano', 'pera', 'melocotón', 'fresas'],
  'count': [1, 1, 6, 10, 3, 6, 4, 10]
}

df = pd.DataFrame(d)

In [26]:
df.head()

Unnamed: 0,fruits,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3


Si queremos que se nos muestre un número determinado de filas, tenemos que indicarlo por parámetro:

In [27]:
df.head(3)

Unnamed: 0,fruits,count
0,sandía,1
1,melón,1
2,manzana,6


In [28]:
df.head(6)

Unnamed: 0,fruits,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6


El método `.tail()` sirve para visualizar las últimas filas del dataframe. Por defecto, se nos mostrarán las 5 últimas. 

In [29]:
df.tail()

Unnamed: 0,fruits,count
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


Si queremos que se nos muestre un número determinado de filas, tenemos que indicarlo por parámetro:

In [30]:
df.tail(3)

Unnamed: 0,fruits,count
5,pera,6
6,melocotón,4
7,fresas,10


In [31]:
df.tail(6)

Unnamed: 0,fruits,count
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


El método `.copy()` nos sirve para realizar uan copia de un dataframe.

Si simplemente realizamos

In [32]:
fruits = df

El dataframe llamado `fruits` es solo una referencia del dataframe original `df` pues si realizamos algún cambio en `fruits`, se realiza también en `df`

In [33]:
fruits.iloc[6, 0] = 'naranja'
fruits

Unnamed: 0,fruits,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
7,fresas,10


In [34]:
df

Unnamed: 0,fruits,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
7,fresas,10


In [38]:
# Cambiamos el nombre de las columnas al dataframe original
df.rename(columns={
  'fruit': 'fruta',
  'count': 'cantidad'
}, inplace=True)

df

Unnamed: 0,fruta,cantidad
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


El método `.rename()` se puede utilizar tanto para cambiar las etiquetas de lsa filas como los nombres de las columnas.

**¡Cuidado!** Para que los cambios se guarden en el dataframe original, necesitamos indicar `inplace = True`, de lo contrario, lo único que estamos haciendo es duplicar el dataframe, cambiando el nombre de las filas o columnas.

In [39]:
df.rename(columns={
  'fruit': 'fruta',
  'count': 'cantidad'
})

Unnamed: 0,fruta,cantidad
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


In [42]:
# Cambiamos el nombre de las filas al dataframe original
df.rename(index = {
  0: 'obs1',
  1: 'obs2',
  7: 'obs8'
}, inplace = True)
df

Unnamed: 0,fruta,cantidad
obs1,sandía,1
obs2,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
obs8,fresas,10


Con el método `.columns` también podemos cambiar el nombre de las columnas:

In [43]:
df.columns = ['FRUTA', 'CANTIDAD']
df

Unnamed: 0,FRUTA,CANTIDAD
obs1,sandía,1
obs2,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
obs8,fresas,10


El método `.insert()` inserta una nueva columna a un dataframe existente

In [44]:
df.insert(
  loc=2,
  column='PRECIO',
  value=[2.50, 2.00, .35, .10, .35, .20, .15, .05]
)

df

Unnamed: 0,FRUTA,CANTIDAD,PRECIO
obs1,sandía,1,2.5
obs2,melón,1,2.0
2,manzana,6,0.35
3,cerezas,10,0.1
4,plátano,3,0.35
5,pera,6,0.2
6,melocotón,4,0.15
obs8,fresas,10,0.05


Al parámetro `loc` le indicamos el índice que ocupará la nueva columna; al parámetro `column` le pasamos el nombre de la nueva columna; y al parámetro `value`, los valores para cada una de las filas.

**Observación**. Si al parámetro `loc` le pasamos un índice ya ocupado por otra columna, se desplazan la columna existente y las de índices superiores un índice a la derecha.

**Observación**. Si al parámetro `value` solo le pasamos un valor, éste será el mismo para todas las filas.

In [45]:
df.insert(1, 'COLOR', 'rojo')
df

Unnamed: 0,FRUTA,COLOR,CANTIDAD,PRECIO
obs1,sandía,rojo,1,2.5
obs2,melón,rojo,1,2.0
2,manzana,rojo,6,0.35
3,cerezas,rojo,10,0.1
4,plátano,rojo,3,0.35
5,pera,rojo,6,0.2
6,melocotón,rojo,4,0.15
obs8,fresas,rojo,10,0.05


El método `.drop()` nos permite borrar las filas o columnas que indiquemos.

**¡Cuidado!** De nuevo, si queremos aplicar directamente los cambios al dataframe original, necesitamos indicar `inplace = True`

In [46]:
# Eliminamos filas (axis = 0) por etiqueta
df_dropped = df.drop(labels = ['obs1', 4], axis = 0)
df_dropped

Unnamed: 0,FRUTA,COLOR,CANTIDAD,PRECIO
obs2,melón,rojo,1,2.0
2,manzana,rojo,6,0.35
3,cerezas,rojo,10,0.1
5,pera,rojo,6,0.2
6,melocotón,rojo,4,0.15
obs8,fresas,rojo,10,0.05


In [47]:
# Eliminamos columnas (axis = 1) por etiqueta
df_dropped = df.drop(labels = ['COLOR', 'PRECIO'], axis = 1)
df_dropped

Unnamed: 0,FRUTA,CANTIDAD
obs1,sandía,1
obs2,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
obs8,fresas,10


El método `.pop()` elimina la columna que indiquemos por parámetro

In [48]:
column_popped = df.pop('COLOR')
df

Unnamed: 0,FRUTA,CANTIDAD,PRECIO
obs1,sandía,1,2.5
obs2,melón,1,2.0
2,manzana,6,0.35
3,cerezas,10,0.1
4,plátano,3,0.35
5,pera,6,0.2
6,melocotón,4,0.15
obs8,fresas,10,0.05


In [49]:
column_popped

obs1    rojo
obs2    rojo
2       rojo
3       rojo
4       rojo
5       rojo
6       rojo
obs8    rojo
Name: COLOR, dtype: object

In [50]:
# Volvemos a añadir la columna recientemente eliminada al final del dataframe con una sintaxis que no habíamos visto todavía
df['COLOR'] = column_popped
df

Unnamed: 0,FRUTA,CANTIDAD,PRECIO,COLOR
obs1,sandía,1,2.5,rojo
obs2,melón,1,2.0,rojo
2,manzana,6,0.35,rojo
3,cerezas,10,0.1,rojo
4,plátano,3,0.35,rojo
5,pera,6,0.2,rojo
6,melocotón,4,0.15,rojo
obs8,fresas,10,0.05,rojo


El método `.rank()` devuelve un ranking.

Si por ejemplo queremos un ranking por fruta, el método `.rank()` nos devolverá una columna de posiciones correspondientes a la posición que ocupa cada fruta si estas son ordenadas alfabéticamente.

**Observación**. El ranking empieza siempre en 1.

In [51]:
df['RANKING_FRUTA'] = df['FRUTA'].rank()
df

Unnamed: 0,FRUTA,CANTIDAD,PRECIO,COLOR,RANKING_FRUTA
obs1,sandía,1,2.5,rojo,8.0
obs2,melón,1,2.0,rojo,5.0
2,manzana,6,0.35,rojo,3.0
3,cerezas,10,0.1,rojo,1.0
4,plátano,3,0.35,rojo,7.0
5,pera,6,0.2,rojo,6.0
6,melocotón,4,0.15,rojo,4.0
obs8,fresas,10,0.05,rojo,2.0


Con el parámetro `ascending`, que por defecto vale `True`, podemos indicar si queremos indicar que el ranking sea en orden ascendente o descendente.

In [52]:
df['RANKING_PRECIO'] = df['PRECIO'].rank( ascending=False )
df

Unnamed: 0,FRUTA,CANTIDAD,PRECIO,COLOR,RANKING_FRUTA,RANKING_PRECIO
obs1,sandía,1,2.5,rojo,8.0,1.0
obs2,melón,1,2.0,rojo,5.0,2.0
2,manzana,6,0.35,rojo,3.0,3.5
3,cerezas,10,0.1,rojo,1.0,7.0
4,plátano,3,0.35,rojo,7.0,3.5
5,pera,6,0.2,rojo,6.0,5.0
6,melocotón,4,0.15,rojo,4.0,6.0
obs8,fresas,10,0.05,rojo,2.0,8.0


El método `.nunique()` devuelve el conteo de cuántos valores únicos hay en cada columna.

In [53]:
df.nunique()

FRUTA             8
CANTIDAD          5
PRECIO            7
COLOR             1
RANKING_FRUTA     8
RANKING_PRECIO    7
dtype: int64

Dada una columna de un dataframe, el método `.unique()` devuelve un array con los valores únicos de dicha columna.

In [54]:
print( df['COLOR'].unique() )

['rojo']


In [55]:
print( df['PRECIO'].unique() )

[2.5  2.   0.35 0.1  0.2  0.15 0.05]


El método `.duplicated()` nos ayuda a analizar los valores duplicados. El parámetro `keep` sirve para controlar como proceder con los valores duplicados:

* `first`: considera la primera aparición del valor repetido como único y el resto como duplicados.
* `last`: considera la última aparición del valor repetido como único y el resto como duplicados.
* `False`: considera todos los repetidos iguales como duplicados.

In [56]:
bool_duplicated = df['CANTIDAD'].duplicated(keep = False)
df[bool_duplicated]

Unnamed: 0,FRUTA,CANTIDAD,PRECIO,COLOR,RANKING_FRUTA,RANKING_PRECIO
obs1,sandía,1,2.5,rojo,8.0,1.0
obs2,melón,1,2.0,rojo,5.0,2.0
2,manzana,6,0.35,rojo,3.0,3.5
3,cerezas,10,0.1,rojo,1.0,7.0
5,pera,6,0.2,rojo,6.0,5.0
obs8,fresas,10,0.05,rojo,2.0,8.0


El método `.drop_duplicates()` elimina los duplicados del dataframe. De nuevo, volvemos a tener el parámetro `keep` y el parámetro `subset` sirve para indicar las columnas a las que queremos aplicar el método:

**Observación**. Para que los cambios sean llevados a cabo en el dataframe original habrá que indicar `inplace = True`.

In [57]:
df_without_duplicates = df.drop_duplicates(
  subset='CANTIDAD',
  keep='first'
)

df_without_duplicates

Unnamed: 0,FRUTA,CANTIDAD,PRECIO,COLOR,RANKING_FRUTA,RANKING_PRECIO
obs1,sandía,1,2.5,rojo,8.0,1.0
2,manzana,6,0.35,rojo,3.0,3.5
3,cerezas,10,0.1,rojo,1.0,7.0
4,plátano,3,0.35,rojo,7.0,3.5
6,melocotón,4,0.15,rojo,4.0,6.0


El método `.nsmallest()` nos devuelve las *n* filas con menor valor de la columna que indiquemos por parámetro.

In [58]:
# Queremos las 3 observaciones con menor precio
df.nsmallest(3, 'PRECIO')

Unnamed: 0,FRUTA,CANTIDAD,PRECIO,COLOR,RANKING_FRUTA,RANKING_PRECIO
obs8,fresas,10,0.05,rojo,2.0,8.0
3,cerezas,10,0.1,rojo,1.0,7.0
6,melocotón,4,0.15,rojo,4.0,6.0


El método `.largest()` nos devuelve las *n* filas con mayor valor de la columna que indiquemos por parámetro.

In [59]:
# Queremos las 5 observaciones con mayor cantidad
df.nlargest(5, 'CANTIDAD')

Unnamed: 0,FRUTA,CANTIDAD,PRECIO,COLOR,RANKING_FRUTA,RANKING_PRECIO
3,cerezas,10,0.1,rojo,1.0,7.0
obs8,fresas,10,0.05,rojo,2.0,8.0
2,manzana,6,0.35,rojo,3.0,3.5
5,pera,6,0.2,rojo,6.0,5.0
6,melocotón,4,0.15,rojo,4.0,6.0


El método `.dtypes` nos indica de qué tipo es cada columna del dataframe.

In [60]:
df.dtypes

FRUTA              object
CANTIDAD            int64
PRECIO            float64
COLOR              object
RANKING_FRUTA     float64
RANKING_PRECIO    float64
dtype: object

#### Bucles y dataframes

Para iterar sobre las filas de un dataframe, podemos utilizar los métodos:

* `.iterrows()`.
* `.itertuples()`.

In [61]:
d = {
  'name': ['Juan Gabriel', 'María', 'Ricardo'],
  'surname': ['Gomila', 'Santos', 'Alberich'],
  'gender': ['m', 'f', 'm']
}

df = pd.DataFrame(d)
df

Unnamed: 0,name,surname,gender
0,Juan Gabriel,Gomila,m
1,María,Santos,f
2,Ricardo,Alberich,m


Usamos `.iterrows()` para obtener el índice de cada fila junto al contenido de cada una:

In [63]:
for i, j in df.iterrows():
  print(f'Índice de la fila: {i},\n\nContenido de la fila:\n{j}', end='\n\n\n')

Índice de la fila: 0,

Contenido de la fila:
name       Juan Gabriel
surname          Gomila
gender                m
Name: 0, dtype: object


Índice de la fila: 1,

Contenido de la fila:
name        María
surname    Santos
gender          f
Name: 1, dtype: object


Índice de la fila: 2,

Contenido de la fila:
name        Ricardo
surname    Alberich
gender            m
Name: 2, dtype: object




Usamos `.itertuples()` para obtener una tupla con toda la información de cada fila:

In [64]:
for i in df.itertuples():
  print(f'El contenido de la fila:\n{i}', end='\n\n')

El contenido de la fila:
Pandas(Index=0, name='Juan Gabriel', surname='Gomila', gender='m')

El contenido de la fila:
Pandas(Index=1, name='María', surname='Santos', gender='f')

El contenido de la fila:
Pandas(Index=2, name='Ricardo', surname='Alberich', gender='m')



Para iterar sobre las columnas de un dataframe:

* Creamos una lista de las columnas del dataframe y luego iteramos sobre esa lista para obtener la información de esas columnas.
* Usamos el método `.iteritems()`

Creamos la lista de columnas e iteramos sobre esta:

In [66]:
columns = list(df)
print( columns )

['name', 'surname', 'gender']


In [67]:
for c in columns:
  print(f'Columna {c}:\n{df[c]}', end='\n\n')

Columna name:
0    Juan Gabriel
1           María
2         Ricardo
Name: name, dtype: object

Columna surname:
0      Gomila
1      Santos
2    Alberich
Name: surname, dtype: object

Columna gender:
0    m
1    f
2    m
Name: gender, dtype: object



Usamos `.items()` para obtener el nombre de cada columna junto al contenido de cada una:

In [69]:
for i, j in df.items():
  print(f'Nombre de la columna: {i}\n\nContenido de la columna:\n{j}', end='\n\n\n')

Nombre de la columna: name

Contenido de la columna:
0    Juan Gabriel
1           María
2         Ricardo
Name: name, dtype: object


Nombre de la columna: surname

Contenido de la columna:
0      Gomila
1      Santos
2    Alberich
Name: surname, dtype: object


Nombre de la columna: gender

Contenido de la columna:
0    m
1    f
2    m
Name: gender, dtype: object




#### Dataframes a partir de archivos CSV

Podemos guardar la información de un archivo csv en un dataframe usando la función `read_csv()`.

El archivo puede

* Estar guardado en nuestro directorio de trabajo.
* Proceder de una url.

In [2]:
simpsons_df = pd.read_csv('characters-simpsons.csv')
simpsons_df.head()

Unnamed: 0,id,name,normalized_name,gender
0,7,Children,children,
1,12,Mechanical Santa,mechanical santa,
2,13,Tattoo Man,tattoo man,
3,16,DOCTOR ZITSOFSKY,doctor zitsofsky,
4,20,Students,students,


In [3]:
simpsons_df.tail()

Unnamed: 0,id,name,normalized_name,gender
6717,5222,Ron Rabinowitz,ron rabinowitz,m
6718,5728,Martha Stewart,martha stewart,f
6719,1770,Officer Goodman,officer goodman,m
6720,1634,Evan Conover,evan conover,m
6721,1868,Agent Johnson,agent johnson,m


#### Dataframes a partir de archivos JSON

Podemos guardar la información de un archivo json en un dataframe usando el método `.read_json()`.

El archivo puede:

* Estar guardado en nuestro directorio de trabajo.
* Proceder de una URL.

In [4]:
quiz_index = pd.read_json('json_index_example.json', orient='index')
quiz_index.head()

Unnamed: 0,Producto,Precio,Cantidad
0,Bolígrafo,1.8,3
1,Lápiz,0.3,2
2,Libreta,5.2,1
3,Agenda,9.99,1
4,Rotulador,1.15,5


#### El parámetro `orient`

En el caso del archivo json, podría darse que no tuvieran la misma configuración que nuestro ejemplo, `json_index_example.json` cuya orientación se corresponde con `index`,

El paámetro `orient` del método `.read_json()` admite otras opciones como `columns` o `values`.

Veamos ambos casos con los ficheros `json_columns_example.json` y `json_values_example.json`, respectivamente.

In [5]:
# Orientación con index
quiz_columns = pd.read_json('json_columns_example.json', orient='columns')
quiz_columns.head()

Unnamed: 0,Producto,Precio,Cantidad
0,Bolígrafo,1.8,3
1,Lápiz,0.3,2
2,Libreta,5.2,1
3,Agenda,9.99,1
4,Rotulador,1.15,5


In [6]:
# Orientación con values
quiz_values = pd.read_json('json_values_example.json', orient='values')
quiz_values.head()

Unnamed: 0,0,1,2
0,Bolígrafo,1.8,3
1,Lápiz,0.3,2
2,Libreta,5.2,1
3,Agenda,9.99,1
4,Rotulador,1.15,5


#### Tratamiento de datos faltantes

Los datos faltantes, o en inglés, Missing Data, se dan cuando no hay información para uno o más elementos.

Éste es un problema muy común en la vida real.

En la librería `pandas`, identificamos los missing data con valores `NA` (Not Avalaible) o `NaN` (Not a Number).

Para identificar valores faltantes en un dataframe de `pandas`, podemos usar los métodos `.isnull()` o `.notnull()`

In [12]:
# Nos devuelve True allí donde hay un dalto faltante
simpsons_df.isnull().head()

Unnamed: 0,id,name,normalized_name,gender
0,False,False,False,True
1,False,False,False,True
2,False,False,False,True
3,False,False,False,True
4,False,False,False,True


In [13]:
# Nos devuelve False allí donde hay un dato faltante
simpsons_df.notnull().head()

Unnamed: 0,id,name,normalized_name,gender
0,True,True,True,False
1,True,True,True,False
2,True,True,True,False
3,True,True,True,False
4,True,True,True,False


Existen muchas técnicas para tratar con valores faltantes: se sustituyen por la media, por la mediana, se elimina la observación, se interpolan... nosotros no entraremos en detalle en ese aspecto. Simplemente veremos los métodos de `Python` que podemos utilizar para tratar con valores faltantes:

* `.fillna()`
* `.replace()`
* `.interpolate()`
* `.dropna()`

El método `.fillna()` sustituye los valores faltantes por el valor que indiquemos por parámetro.

In [14]:
# Necesitamos la librería numpy para crear un dataframe con valores NaN
import numpy as np

In [15]:
data = {
  'Primer lanzamiento': [100, 86, np.nan, 75, 97],
  'Segundo lanzamiento': [80, np.nan, 63, 81, 88],
  'Tercer lanzamiento': [93, 89, 92, 97, np.nan]
}

points_df = pd.DataFrame(data, index = ['Jugador 1', 'Jugador 2', 'Jugador 3' ,'Jugador 4', 'Jugador 5'])
points_df

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 2,86.0,,89.0
Jugador 3,,63.0,92.0
Jugador 4,75.0,81.0,97.0
Jugador 5,97.0,88.0,


In [16]:
# Sustituimos todos los NaN por 0 puntos
points_df.fillna(0)

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 2,86.0,0.0,89.0
Jugador 3,0.0,63.0,92.0
Jugador 4,75.0,81.0,97.0
Jugador 5,97.0,88.0,0.0


Para sustituir valores faltantes con el método `.replace()` lo hacemos del siguiente modo: primero pasamos por parámetro el valor que queremos sustituir y luego, el valor por el cual queremos sustituirlo.


In [19]:
points_df = pd.DataFrame(data, index = ['Jugador 1', 'Jugador 2', 'Jugador 3', 'Jugador 4', 'Jugador 5'])
points_df.replace(np.nan, 0)

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 2,86.0,0.0,89.0
Jugador 3,0.0,63.0,92.0
Jugador 4,75.0,81.0,97.0
Jugador 5,97.0,88.0,0.0


Si usamos el método `.interpolate()`, sustituiremos los valores `NaN` por valores interpolados. Este método consta de muchos parámetros para elegir el método (que por defecto es `linear`) por el cual llevar a cabo la interpolación.

In [20]:
points_df = pd.DataFrame(data, index = ['Jugador 1', 'Jugador 2', 'Jugador 3', 'Jugador 4', 'Jugador 5'])

points_df.interpolate()

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 2,86.0,71.5,89.0
Jugador 3,80.5,63.0,92.0
Jugador 4,75.0,81.0,97.0
Jugador 5,97.0,88.0,97.0


El método `.dropna()` elimina las filas que contienen valores faltantes.

In [21]:
points_df = pd.DataFrame(data, index = ['Jugador 1', 'Jugador 2', 'Jugador 3', 'Jugador 4', 'Jugador 5'])
points_df.dropna()

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 4,75.0,81.0,97.0


#### Filtrando dataframes

Dado un dataframe, podemos filtrar sus filas comprobando cuáles satisfacen una condición

In [22]:
# Mostramos las observaciones con porcentajes mayor a 5
letters_freq_df = [['Porcentaje'] > 5]

NameError: name 'letters_freq_df' is not defined

#### Series de `pandas`

**Serie**. Una Serie de `pandas` es como una columna de un dataframe.

Podemos construir Series de `pandas` a partir de una lista unidimensional.

In [23]:
a = [1, 2, 3, 4, 5]
my_series = pd.Series(a)
print(my_series)

0    1
1    2
2    3
3    4
4    5
dtype: int64


**Observación**. Si no especificamos nada, por defecto las etiquetas de las entradas de la Serie se corresponden con el índice que ocupan.

Recordemos que en `Python` los índices empiezan por 0.

Estas etiquetas pueden ser usadas para acceder a un valor específico.

In [24]:
print( my_series[1] )

2


Cuando creamos una Serie, podemos modificar sus etiquetas con el parámetro `index`:

In [25]:
my_series = pd.Series(a, index = ['a', 'b', 'c', 'd', 'e'])
print( my_series )

a    1
b    2
c    3
d    4
e    5
dtype: int64


Ahora, para acceder a una entrada en particular, lo haremos con las nuevas etiquetas:

In [26]:
print(my_series['c'])

3


También podemos crear Series a partir de diccionarios. En este caso, las claves se corresponderán con las etiquetas de las series, y los valores del diccionario con los valores que toman las entradas de la serie.

In [27]:
videos = {
  'day1': 5,
  'day2': 9,
  'day3': 7,
  'day4': 6,
  'day5': 8
}

my_series = pd.Series( videos )
print( my_series )

day1    5
day2    9
day3    7
day4    6
day5    8
dtype: int64
