# Dataframes con el módulo `pandas`

## Introducción

**Dataframe.** Es una estructura bidimensional mutable de datos con los ejes etiquetados donde

- cada fila representa una observación diferente
- cada columna representa una variable diferente

En `Python`, para definir un dataframe, en primer lugar necesitamos importar el módulo `pandas`.

In [None]:
%pip install pandas

In [2]:
import pandas as pd

A continuación, si queremos un dataframe de 5 filas y 2 columnas, podemos hacerlo a partir de un diccionario, una lista de listas, una lista de diccionarios, etc.



---

#### Ejemplo 1

Vamos a crear un dataframe de 5 filas y 2 columnas a partir de un diccionario.

Para ello, primero creamos un diccionario donde las claves serán los nombres de las columnas y los valores serán listas, con tantos elementos como número de filas queramos.

Finalmente, convertimos ese diccionario a dataframe con la función `DataFrame()` de `pandas`:

In [8]:
data = {"x": [1, 2, 3, 4, 5], "y": [2, 4, 6, 8, 10]}
df1 = pd.DataFrame(data = data)
print(df1)

   x   y
0  1   2
1  2   4
2  3   6
3  4   8
4  5  10


In [4]:
df1

Unnamed: 0,x,y
0,1,2
1,2,4
2,3,6
3,4,8
4,5,10


Como habíamos dicho, hemos creado un dataframe de 5 filas y dos columnas, llamadas `x` e `y` respectivamente.

**Observación.** Como resultado del `print()`, no solamente hemos obtenido las 5 filas y 2 columnas, sino que hay una columna adicional de 5 números ordenados verticalmete del 0 al 4. Se trata simplemente del nombre de cada fila, que por defecto es el índice de cada fila. El 0 indica la primera fila; el 1, la segunda; y así, sucesivamente.

---

#### Ejemplo 2

Vamos a crear el mismo dataframe de 5 filas y 2 columnas, pero esta vez a partir de una lista de listas.

En este caso, podemos hacerlo directamente con la función `DataFrame()` de `pandas`, usando los parámetros `data` y `columns`

In [6]:
df2 = pd.DataFrame(data = [[1, 2], [2, 4], [3, 6], [4, 8], [5, 10]],
                   columns = ["x", "y"])
df2

Unnamed: 0,x,y
0,1,2
1,2,4
2,3,6
3,4,8
4,5,10


Al parámetro `data` le hemos proporcionado una lista de 5 listas, donde cada una de las sublistas tiene 2 elementos: el perteneciente a la primera columna en la posición 0, y el perteneciente a la segunda columna en la posición 1.

Al parámetro `columns` le hemos proporcionado el nombre de las 2 columnas.



---

#### Ejemplo 3

Vamos a crear el mismo dataframe de 5 filas y 2 columnas, con la diferencia de que vamos a modificar el nombre de las filas.

Lo haremos a partir del diccionario `data` y utilizaremos el parámetro `index` de la función `DataFrame()` de `pandas`

In [9]:
df3 = pd.DataFrame(data = data, index = ["obs1", "obs2", "obs3", "obs4", "obs5"])
print(df3)

      x   y
obs1  1   2
obs2  2   4
obs3  3   6
obs4  4   8
obs5  5  10


En este caso, al parámetro `index` le hemos pasado una lista con 5 strings.

**¡Cuidado!.** Al construir un dataframe a partir de un diccionario (o cualquier objeto de `Python` que contenga algún diccionario), los nombres de las columnas son las claves del diccionario. Si quisiésemos cambiarlos con el parámetro `columns` directamente, nos pasaría lo siguiente:

In [12]:
d = {"a": [1, 2, 3],
     "b": [4, 5, 6],
     "b1": [7, 8, 9]}

df = pd.DataFrame(d, columns = ["a", "b", "c"])
print(df)

   a  b    c
0  1  4  NaN
1  2  5  NaN
2  3  6  NaN


**Observación.** Si queremos crear un dataframe a partir de un diccionario, pero queremos menos columnas que total de claves tiene el diccionario, no hay problema, siempre y cuando los nombres de las columnas indicados coincidan con las claves del diccionario

In [None]:
# Construimos un dataframe solo con las columnas a y b del diccionario d
df = pd.DataFrame(d, columns = ["a", "b"])
print(df)

---

#### Ejemplo 4

Vamos a crear el mismo dataframe de 5 filas y 2 columnas, esta vez a partir de una lista de diccionarios.

In [None]:
data = [{"x": 1, "y": 2},
        {"x": 2, "y": 4},
        {"x": 3, "y": 6},
        {"x": 4, "y": 8},
        {"x": 5, "y": 10}]
df4 = pd.DataFrame(data = data)
print(df4)

---

#### Ejemplo 5

Incluso podemos crear un dataframe haciendo uso de la función `zip()`.

Para ello, a partir de dos listas, creamos una lista de tuplas, que es la que proporcionamos al parámetro `data` de la función `DataFrame()` para construir el dataframe.

In [15]:
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

data = list(zip(x, y))
print(data)

[(1, 2), (2, 4), (3, 6), (4, 8), (5, 10)]


In [17]:
df5 = pd.DataFrame(data, columns = ["x", "y"])
df5

Unnamed: 0,x,y
0,1,2
1,2,4
2,3,6
3,4,8
4,5,10


---

### Creando dataframes con `.from_dict()`

Para construir dataframes a partir de un diccionario, existe el método `.from_dict()`



In [None]:
d = {"a": [1, 2, 3],
     "b": [4, 5, 6],
     "b1": [7, 8, 9]}

df = pd.DataFrame.from_dict(d)
print(df)

Lo interesante de este método es que podemos crear un dataframe a partir de un diccionario donde cada clave represente una fila (observación) diferente, gracias al parámetro `orient`

In [18]:
d = {"fila1": [1, 4, 7],
     "fila2": [2, 5, 8],
     "fila3": [3, 6, 9]}

df = pd.DataFrame.from_dict(d, orient = "index", columns = ["A", "B", "C"])
print(df)

       A  B  C
fila1  1  4  7
fila2  2  5  8
fila3  3  6  9


**¡Cuidado!** Para poder usar el parámetro `columns` del método `.from_dict()`, necesitamos que el parámetro `orient` valga `"index"`.

**Observación.** Si no indicásemos el parámetro `orient`, por defecto vale `"columns"`, con lo cual el diccionario suministrado a `data` sería interpretado del siguiente modo: cada clave representaría una columna diferente, tal cual ocurría cuando no usábamos el método `.from_dict()`. Si por el contrario indicamos que `orient = "index"`, lo que estamos haciendo es decirle a `Python` que cada clave del diccionario representa una fila (observación) diferente.

### Dimensiones del dataframe

Con el método `.shape` podemos calcular las dimensiones (número de filas y columnas) del dataframe.

In [19]:
df.shape

(3, 3)

Como resultado obtenemos una tupla donde el primer elemento es el número de filas, que en nuestro caso es 5, mientras que el segundo elemento es el número de columnas, que en nuestro ejemplo era 2.

In [20]:
nrows = df.shape[0]
ncols = df.shape[1]
print("El número de filas de df es", nrows)
print("El número de columnas de df es", ncols)

El número de filas de df es 3
El número de columnas de df es 3


Con el método `.size` calculamos el número total de valores que tienes el dataframe (número de filas por número de columnas)

In [21]:
df.size

9

In [23]:
df.shape[0] * df.shape[1]

9

Finalmente, con el método `.ndim` calculamos el número de dimensiones que tiene el dataframe. Éste siempre valdrá 2, pues consta de filas y columnas.

In [24]:
df.ndim

2

## Subdataframes

**Subdataframe.** Dado un dataframe, un subdataframe no es más que la selección de unas filas y columnas en particular.




### Columnas

Dado un dataframe, podemos seleccionar una columna en particular de diversas formas:

- Indicando el nombre de la columna entre claudators, `[]`
- Con el método `.columns[]`
- Con el método `.loc[]` (por nombre o etiqueta)
- Con el método `.iloc[]` (por posición)

In [25]:
fdata = {"Name": ["Alicia", "Bill", "Carlos", "Diana"],
        "Age": [22, 28, 19, 34],
        "Pet": [True, False, False, True],
        "Height": [157, 190, 175, 164],
        "Birthday": ["Mayo", "Junio", "Agosto", "Diciembre"]}
df = pd.DataFrame(data = fdata, index = ["obs1", "obs2", "obs3", "obs4"])

In [26]:
df

Unnamed: 0,Name,Age,Pet,Height,Birthday
obs1,Alicia,22,True,157,Mayo
obs2,Bill,28,False,190,Junio
obs3,Carlos,19,False,175,Agosto
obs4,Diana,34,True,164,Diciembre


In [27]:
df.shape

(4, 5)

In [28]:
# Seleccionamos la columna Birthday por nombre
print(df["Birthday"])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


In [29]:
# Seleccionamos la columna Birthday con el método .columns[]
print(df[df.columns[4]])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


In [32]:
# Seleccionamos la columna Birthday con el método .loc[]
print(df.loc[:, "Birthday"])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


**Observación.** Al método `.loc[]` le hemos indicado que tome todas las filas con `:` en la primera posición y la columna `"Birthday"` directamente indicando su nommbre en la segunda posición.

In [33]:
# Seleccionamos la columna Birthday con el método .iloc[]
print(df.iloc[:, 4])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


**Observación.** Al método `.iloc[]` le hemos indicado que tome todas las filas con `:` en la primera posición y la columna `"Birthday"` indicando el índice que ocupa como columna.

Si quisiésemos seleccionar más de una columna, podríamos hacerlo con todas las opciones enumeradas anteriormente, con ligeras modificaciones en algunos casos:

In [36]:
# Seleccionamos las columnas Name y Age por nombre
df[["Name", "Age", "Birthday"]]

Unnamed: 0,Name,Age,Birthday
obs1,Alicia,22,Mayo
obs2,Bill,28,Junio
obs3,Carlos,19,Agosto
obs4,Diana,34,Diciembre


In [38]:
# Seleccionamos las columnas Name y Age con el método .columns[]
print(df[df.columns[[0, 1, 2]]])

        Name  Age    Pet
obs1  Alicia   22   True
obs2    Bill   28  False
obs3  Carlos   19  False
obs4   Diana   34   True


**Observación.** Además, como estas dos columnas están seguidas en nuestro dataframe, podríamos también usar la sintaxis siguiente no solo en esta opción, sino también en el resto de opciones que hemos visto.

In [40]:
df[df.columns[0:2]]

Unnamed: 0,Name,Age
obs1,Alicia,22
obs2,Bill,28
obs3,Carlos,19
obs4,Diana,34


In [None]:
# Seleccionamos las columnas Name y Age con el método .loc[]
print(df.loc[:, ["Name", "Age"]])

In [None]:
print(df.loc[:, "Name":"Age"])

**¡Cuidado!** Como podemos ver, al usar `:` con strings, el indicado a la derecha sí que es incluido.

In [None]:
# Seleccionamos las columnas Name y Age con el método .iloc[]
print(df.iloc[:, [0, 1]])

In [None]:
print(df.iloc[:, 0:2])

### Filas

Dado un dataframe, podemos seleccionar una fila en particular de diversas formas:

- Con el método `.loc[]` (por nombre o etiqueta)
- Con el método `.iloc[]` (por posición)


In [41]:
df

Unnamed: 0,Name,Age,Pet,Height,Birthday
obs1,Alicia,22,True,157,Mayo
obs2,Bill,28,False,190,Junio
obs3,Carlos,19,False,175,Agosto
obs4,Diana,34,True,164,Diciembre


In [42]:
# Seleccionamos la primera observación (obs1) con el método .loc[]
print(df.loc["obs1"])

Name        Alicia
Age             22
Pet           True
Height         157
Birthday      Mayo
Name: obs1, dtype: object


In [44]:
type(df)

pandas.core.frame.DataFrame

In [43]:
type(df.loc["obs1"])

pandas.core.series.Series

In [45]:
# Seleccionamos la última observación con el método .iloc[]
print(df.iloc[-1])

Name            Diana
Age                34
Pet              True
Height            164
Birthday    Diciembre
Name: obs4, dtype: object


Si quisiésemos seleccionar más de una fila, podríamos hacerlo con todas las opciones enumeradas anteriormente, con ligeras modificaciones en algunos casos:

In [46]:
# Seleccionamos la segunda y tercera observación con el método .loc[]
print(df.loc[["obs2","obs3"]])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


**Observación.** Además, como estas dos filas están seguidas en nuestro dataframe, podríamos también usar la sintaxis siguiente no solo en esta opción, sino también en el resto de opciones que hemos visto.

In [47]:
print(df.loc["obs2":"obs3"])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


In [None]:
# Seleccionamos la segunda y tercera observación con el método .iloc[]
print(df.iloc[[1, 2]])

In [None]:
print(df.iloc[1:3])

### Filas y columnas

Para seleccionar un elemento en concreto, hay que indicar la fila y la columna y lo podemos hacer de dos formas:

- Con el método `.loc[]` (por nombre o etiqueta)
- Con el método `.iloc[]` (por índice)

In [49]:
df

Unnamed: 0,Name,Age,Pet,Height,Birthday
obs1,Alicia,22,True,157,Mayo
obs2,Bill,28,False,190,Junio
obs3,Carlos,19,False,175,Agosto
obs4,Diana,34,True,164,Diciembre


In [48]:
# Seleccionamos la edad de la segunda observación con el método .loc[]
print(df.loc["obs2", "Age"])

28


In [51]:
# Seleccionamos la edad de la segunda observación con el método .iloc[]
print(df.iloc[1, 3])

190


Si queremos seleccionar un subconjunto de filas y columnas, podemos utilizar los dos métodos anteriores

In [52]:
# Seleccionamos la segunda y tercera fila y las columnas nombre y cumpleaños
# Con el método .loc[]
print(df.loc["obs2":"obs3", ["Name", "Birthday"]])

        Name Birthday
obs2    Bill    Junio
obs3  Carlos   Agosto


In [54]:
# Con el método .iloc[]
print(df.iloc[1:3, [0, 4]])

        Name Birthday
obs2    Bill    Junio
obs3  Carlos   Agosto


In [55]:
df

Unnamed: 0,Name,Age,Pet,Height,Birthday
obs1,Alicia,22,True,157,Mayo
obs2,Bill,28,False,190,Junio
obs3,Carlos,19,False,175,Agosto
obs4,Diana,34,True,164,Diciembre


In [56]:
# Filas indices 2 y 3
# Columnas indices 2 a la 4

df.loc["obs3":"obs4",["Pet", "Height", "Birthday"]]

Unnamed: 0,Pet,Height,Birthday
obs3,False,175,Agosto
obs4,True,164,Diciembre


In [58]:
df.iloc[2:4, 2:5]

Unnamed: 0,Pet,Height,Birthday
obs3,False,175,Agosto
obs4,True,164,Diciembre


## Métodos de dataframes

El método `.head()` sirve para visualizar las primeras filas del dataframe. Por defecto, se nos mostrarán las 5 primeras



In [59]:
import pandas as pd

In [60]:
d = {"fruit": ["sandía", "melón", "manzana", "cerezas", "plátano", "pera", "melocotón", "fresas"],
     "count": [1, 1, 6, 10, 3, 6, 4, 10]}

df = pd.DataFrame(d)

In [61]:
df

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


In [64]:
df.head()

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3


Si queremos que se nos muestre un número determinado de filas, tenemos que indicarlo por parámetro:

In [65]:
df.head(3)

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6


In [66]:
df.head(6)

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6


El método `.tail()` sirve para visualizar las últimas filas del dataframe. Por defecto, se nos mostrarán las 5 últimas

In [67]:
df.tail()

Unnamed: 0,fruit,count
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


Si queremos que se nos muestre un número determinado de filas, tenemos que indicarlo por parámetro:

In [None]:
df.tail(3)

In [None]:
df.tail(6)

El método `.copy()` nos sirve para realizar una copia de un dataframe.

Si simplemente realizamos

In [None]:
fruits = df

El dataframe llamado `fruits` es solo una referencia del dataframe original `df` pues si realizamos algún cambio en `fruits`, se realiza también en `df`

In [None]:
fruits.iloc[6, 0] = "naranja"
fruits

In [None]:
df

En cambio, si `fruits` es definido como

In [None]:
fruits = df.copy()

entonces ahora sí es una copia independiente del dataframe original y por muchos cambios que hagamos sobre dicha copia, el original se mantiene intacto

In [None]:
fruits.iloc[6, 0] = "nectarina"
fruits

In [None]:
df

El método `.rename()` se puede utilizar tanto para cambiar las etiquetas de las filas como los nombres de las columnas.

**¡Cuidado!** Para que los cambios se guarden en el dataframe original, necesitamos indicar `inplace = True`, de lo contrario, lo único que estamos haciendo es duplicar el dataframe, cambiando el nombre de las filas o columnas

In [68]:
df.rename(columns = {"fruit": "fruta",
                     "count": "cantidad"})
df

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


In [69]:
df

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


In [70]:
# Cambiamos el nombre de las columnas al dataframe original
df.rename(columns = {"fruit": "fruta",
                     "count": "cantidad"},
          inplace = True)
df

Unnamed: 0,fruta,cantidad
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


In [71]:
df.rename(index = {0: "obs1",
                   1: "obs2",
                   7: "obs8"})
df

Unnamed: 0,fruta,cantidad
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


In [72]:
# Cambiamos el nombre de las filas al dataframe original
df.rename(index = {0: "obs1",
                   1: "obs2",
                   7: "obs8"},
          inplace = True)
df

Unnamed: 0,fruta,cantidad
obs1,sandía,1
obs2,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
obs8,fresas,10


Con el método `.columns` también podemos cambiar el nombre de las columnas:

In [None]:
df.columns

In [None]:
df.columns = ["FRUTA", "CANTIDAD"]
df

El método `.insert()` inserta una nueva columna a un dataframe existente

In [None]:
df.insert(loc = 2, column = "PRECIO", value = [2.50, 2.00, 0.35, 0.10, 0.35, 0.20, 0.15, 0.05])
df

Al parámetro `loc` le indicamos el índice que ocupará la nueva columna; al parámetro `column` le pasamos el nombre de la nueva columna; y al parámetro `value`, los valores para cada una de las filas.

**Observación.** Si al parámetro `loc` le pasamos un índice ya ocupado por otra columna, se desplazan la columna existente y las de índices superiores un índice a la derecha.

**Observación.** Si al parámetro `value` solo le pasamos un valor, éste será el mismo para todas las filas


In [None]:
df.insert(1, "COLOR", "rojo")
df

El método `.drop()` nos permite borrar las filas o columnas que indiquemos

**¡Cuidado!** De nuevo, si queremos aplicar directamente los cambios al dataframe original, necesitamos indicar `inplace = True`

In [None]:
# Eliminamos filas (axis = 0) por etiqueta
df_dropped = df.drop(labels = ["obs1", 4], axis = 0)
df_dropped

In [None]:
# Eliminamos columnas (axis = 1) por etiqueta
df_dropped = df.drop(labels = ["COLOR", "PRECIO"], axis = 1)
df_dropped

El método `.pop()` elimina la columna que indiquemos por parámetro

In [None]:
column_popped = df.pop("COLOR")
df

In [None]:
column_popped

In [None]:
# Volvemos a añadir la columna recientemente eliminada al final del dataframe con una sintaxis que no habíamos visto todavía
df["COLOR"] = column_popped
df

El método `.rank()` devuelve un ranking.

Si por ejemplo queremos un ranking por fruta, el método `.rank()` nos devolverá una columna de posiciones correspondientes a la posición que ocupa cada fruta si estas son ordenadas alfabéticamente

**Observación.** El ranking empieza siempre en 1.

In [None]:
df["RANKING_FRUTA"] = df["FRUTA"].rank()
df

Con el parámetro `ascending`, que por defecto vale `True`, podemos indicar si queremos que el ranking sea en orden ascendente o descendente.

In [None]:
df["RANKING_PRECIO"] = df["PRECIO"].rank(ascending = False)
df

El método `.nunique()` devuelve el conteo de cuántos valores únicos hay en cada columna

In [None]:
df.nunique()

Dada una columna de un dataframe, el método `.unique()` devuelve un array con los valores únicos de dicha columna

In [None]:
df["COLOR"].unique()

In [None]:
df["PRECIO"].unique()

El método `.duplicated()` nos ayuda a analizar los valores duplicados. El parámetro `keep` sirve para controlar como proceder con los valores duplicados:

  * `first`: considera la primera aparición del valor repetido como único y el resto como duplicados
  * `last`: considera la última aparición del valor repetido como único y el resto como duplicados
  * `False`: considera todos los repetidos iguales como duplicados

In [None]:
bool_duplicated = df["CANTIDAD"].duplicated(keep = False)
df[bool_duplicated]

El método `.drop_duplicates()` elimina los duplicados del dataframe. De nuevo, volvemos a tener el parámetro `keep` y el parámetro `subset` sirve para indicar las columnas a las que queremos aplicar el método:

**Observación.** Para que los cambios sean llevados a cabo en el dataframe original, habrá que indicar `inplace = True`

In [None]:
df_without_duplicates = df.drop_duplicates(subset = "CANTIDAD",
                                           keep = "first")
df_without_duplicates

El método `.nsmallest()` nos devuelve las $n$ filas con menor valor de la columna que indiquemos por parámetro

In [None]:
# Queremos las 3 observaciones con menor precio
df.nsmallest(3, "PRECIO")

El método `.largest()` nos devuelve las $n$ filas con mayor valor de la columna que indiquemos por parámetro

In [None]:
# Queremos las 5 observaciones con mayor cantidad
df.nlargest(5, "CANTIDAD")

El método `.dtypes` nos indica de qué tipo es cada columna del dataframe

In [None]:
df.dtypes

## Bucles y dataframes

Para iterar sobre las filas de un dataframe, podemos utilizar los métodos:

- `.iterrows()`
- `.itertuples()`

In [None]:
d = {"name": ["Juan Gabriel", "María", "Ricardo"],
     "surname": ["Gomila", "Santos", "Alberich"],
     "gender": ["m", "f", "m"]}

df = pd.DataFrame(d)
df

Usamos `.iterrows()` para obtener el índice de cada fila junto al contenido de cada una:

In [None]:
for i, j in df.iterrows():
  print("Índice de la fila: {},\n\nContenido de la fila:\n{}".format(i, j), end = "\n\n\n")

Usamos `.itertuples()` para obtener una tupla con toda la información de cada fila:

In [None]:
for i in df.itertuples():
  print("Contenido de la fila:\n{}".format(i), end = "\n\n")

Para iterar sobre las columnas de un dataframe,

- creamos una lista de las columnas del dataframe y luego iterarmos sobre esa lista para obtener la información de esas columnas
- usamos el métood `.iteritems()`

Creamos la lista de columnas e iteramos sobre esta:

In [None]:
columns = list(df)
print(columns)

In [None]:
for c in columns:
  print("Columna {}:\n{}".format(c, df[c]), end = "\n\n")

Usamos `.iteritems()` para obtener el nombre de cada columna junto al contenido de cada una:

In [None]:
for i, j in df.iteritems():
  print("Nombre de la columna: {},\n\nContenido de la columna:\n{}".format(i, j), end = "\n\n\n")

## Dataframes a partir de archivos CSV

Podemos guardar la información de un archivo csv en un dataframe usando la función `read_csv()`.

El archivo puede

- estar guardado en nuestro directorio de trabajo
- proceder de una url



### Desde directorio de trabajo

Vamos a cargar el archivo llamado `characters-simpsons.csv` que tenemos guardado en la carpeta.

A continuación, usaremos la función `read_csv()`

In [None]:
simpsons_df = pd.read_csv("characters-simpsons.csv")
simpsons_df.head()

In [None]:
simpsons_df.tail()

### Desde url

Vamos a cargar el archivo que contiene la frecuencia de aparición de las letras del alfabeto inglés. Este archivo se llama letter_frequency.csv procede de la siguiente [url](https://people.sc.fsu.edu/~jburkardt/data/csv/letter_frequency.csv)

In [12]:
letters_freq_df = pd.read_csv("https://people.sc.fsu.edu/~jburkardt/data/csv/letter_frequency.csv")
letters_freq_df.columns = ["Letra", "Frecuencia", "Porcentaje"]
letters_freq_df

Unnamed: 0,Letra,Frecuencia,Porcentaje
0,"""A""",24373121,8.1
1,"""B""",4762938,1.6
2,"""C""",8982417,3.0
3,"""D""",10805580,3.6
4,"""E""",37907119,12.6
5,"""F""",7486889,2.5
6,"""G""",5143059,1.7
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
9,"""J""",474021,0.2


## Dataframes a partir de archivos JSON

Podemos guardar la información de un archivo json en un dataframe usando el método `.read_json()`.

El archivo puede

- estar guardado en nuestro directorio de trabajo
- proceder de una url

### Desde directorio de trabajo

Vamos a cargar el archivo llamado `json_index_example.json` que tenemos guardado.

In [None]:
quiz_index = pd.read_json("json_index_example.json", orient = "index")
quiz_index.head()

#### El parámetro `orient`

En el caso de archivos json, podría darse que no tuvieran la misma configuración que nuestro ejemplo, `json_index_example.json` cuya orientación se corresponde con `index`.

El parámetro `orient` del método `.read_json()` admite otras opciones como `columns` o `values`.

Veamos ambos casos con los ficheros `json_columns_example.json` y `json_values_example.json`, respectivamente.

In [None]:
# Orientación con index
quiz_columns = pd.read_json("json_columns_example.json",
                    orient = "columns")
quiz_columns.head()

In [None]:
# Orientación con values
quiz_values = pd.read_json("json_values_example.json",
                           orient = "values")
quiz_values.head()

### Desde url

Vamos a cargar el archivo json que procede de la siguiente [url](https://api.exchangerate-api.com/v4/latest/USD)

In [None]:
from_url = pd.read_json("https://api.exchangerate-api.com/v4/latest/USD")
from_url.head()

## Tratamiento de datos faltantes



Los datos faltantes, o en inglés, Missing Data, se dan cuando no hay información para uno o más elementos.

Éste es un problema muy común en la vida real.

En la librería `pandas`, identificamos los missing data con valores `NA` (Not Available) o `NaN` (Not a Number).

Para identificar valores fanltantes en un dataframe de `pandas` , podemos usar los métodos `.isnull()` o `.notnull()`

In [None]:
# Nos devuelve True allí donde hay un dato faltante
simpsons_df.isnull().head()

In [None]:
# Nos devuelve False allí donde hay un dato faltante
simpsons_df.notnull().head()

Existen muchas técnicas para tratar con valores faltantes: se sustituyen por la media, por la mediana, se elimina la observación, se interpolan... nosotros no entraremos en detalle en ese aspecto. Simplemente veremos los métodos de `Python` que podemos utilizar para tratar con valores faltantes:

- `.fillna()`
- `.replace()`
- `.interpolate()`
- `.dropna()`

El método `.fillna()` sustituye los valores faltantes por el valor que indiquemos por parámetro

In [4]:
# Necesitamos la librería numpy para crear un dataframe con valores NaN
import numpy as np
import pandas as pd

In [5]:
data = {"Primer lanzamiento": [100, 86, np.nan, 75, 97],
        "Segundo lanzamiento": [80, np.nan, 63, 81, 88],
        "Tercer lanzamiento": [93, 89, 92, 97, np.nan]
        }

points_df = pd.DataFrame(data, index = ["Jugador 1", "Jugador 2", "Jugador 3", "Jugador 4", "Jugador 5"])
points_df

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 2,86.0,,89.0
Jugador 3,,63.0,92.0
Jugador 4,75.0,81.0,97.0
Jugador 5,97.0,88.0,


In [6]:
# Sustituimos todos los NaN por 0 puntos
points_df.fillna(0)

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 2,86.0,0.0,89.0
Jugador 3,0.0,63.0,92.0
Jugador 4,75.0,81.0,97.0
Jugador 5,97.0,88.0,0.0


Para sustituir valores faltantes con el método `.replace()` lo hacemos del siguiente modo: primero pasamos por parámetro el valor que queremos sustituir y luego, el valor por el cual queremos sustituirlo.

In [7]:
points_df = pd.DataFrame(data, index = ["Jugador 1", "Jugador 2", "Jugador 3", "Jugador 4", "Jugador 5"])
points_df.replace(np.nan, 0)

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 2,86.0,0.0,89.0
Jugador 3,0.0,63.0,92.0
Jugador 4,75.0,81.0,97.0
Jugador 5,97.0,88.0,0.0


Si usamos el método `.interpolate()`, sustituiremos los valores `NaN` por valores interpolados. Este método consta de muchos parámetros para elegir el método (que por defecto es `linear`) por el cual llevar a cabo la interpolación.

In [8]:
points_df = pd.DataFrame(data, index = ["Jugador 1", "Jugador 2", "Jugador 3", "Jugador 4", "Jugador 5"])
points_df.interpolate()

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 2,86.0,71.5,89.0
Jugador 3,80.5,63.0,92.0
Jugador 4,75.0,81.0,97.0
Jugador 5,97.0,88.0,97.0


El método `.dropna()` elimina las filas que contienen valores faltantes.

In [9]:
points_df = pd.DataFrame(data, index = ["Jugador 1", "Jugador 2", "Jugador 3", "Jugador 4", "Jugador 5"])
points_df.dropna()

Unnamed: 0,Primer lanzamiento,Segundo lanzamiento,Tercer lanzamiento
Jugador 1,100.0,80.0,93.0
Jugador 4,75.0,81.0,97.0


## Filtrando dataframes

Dado un dataframe, podemos filtrar sus filas comprobando cuáles satisfacen una condición

In [13]:
# Mostramos las observaciones con porcentaje mayor a 5
letters_freq_df[letters_freq_df["Porcentaje"] > 5]

Unnamed: 0,Letra,Frecuencia,Porcentaje
0,"""A""",24373121,8.1
4,"""E""",37907119,12.6
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
13,"""N""",21402466,7.1
14,"""O""",23215532,7.7
17,"""R""",17897352,5.9
18,"""S""",19059775,6.3
19,"""T""",28691274,9.5


In [17]:
freq = letters_freq_df.loc[(letters_freq_df["Frecuencia"] >= 17897352 ) & (letters_freq_df["Porcentaje"] >= 5.9) ] # & = AND, | = OR
freq

Unnamed: 0,Letra,Frecuencia,Porcentaje
0,"""A""",24373121,8.1
4,"""E""",37907119,12.6
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
13,"""N""",21402466,7.1
14,"""O""",23215532,7.7
17,"""R""",17897352,5.9
18,"""S""",19059775,6.3
19,"""T""",28691274,9.5


In [14]:
# Mostramos las observaciones con frecuencia menor o igual a la de la letra S
freq_S = letters_freq_df.loc[18, "Frecuencia"]
letters_freq_df[letters_freq_df["Frecuencia"] <= freq_S]



Unnamed: 0,Letra,Frecuencia,Porcentaje
1,"""B""",4762938,1.6
2,"""C""",8982417,3.0
3,"""D""",10805580,3.6
5,"""F""",7486889,2.5
6,"""G""",5143059,1.7
7,"""H""",18058207,6.0
9,"""J""",474021,0.2
10,"""K""",1720909,0.6
11,"""L""",11730498,3.9
12,"""M""",7391366,2.5


El método `.query()` nos puede ser útil para este cometido, pero funciona únicamente cuando los valores de la columna no contienen espacios en blanco.

In [None]:
# Mostramos aquellas observaciones cuyo porcentaje es mayor a 5
letters_freq_df.query('Porcentaje > 5')

In [None]:
# Mostramos aquellas observaciones cuyo porcentaje es mayor a 5 y menor o igual a 8
letters_freq_df.query("Porcentaje > 5 and Porcentaje <= 8")

## Series de `pandas`

**Serie.** Una Serie de `pandas` es como una columna de un dataframe.

Podemos construir Series de `pandas` a partir de una lista unidimensional

In [None]:
a = [1, 2, 3, 4, 5]
my_series = pd.Series(a)
print(my_series)

**Observación.** Si no especificamos nada, por defecto las etiquetas de las entradas de la Serie se corresponden con el índice que ocupan. Recordemos que en `Python` lo índices empiezan por 0.

Estas etiquetas pueden ser usadas para acceder a un valor específico

In [None]:
print(my_series[1])

Cuando creamos una Serie, podemos modificar sus etiquetas con el parámetro `index`:

In [None]:
my_series = pd.Series(a, index = ["a", "b", "c", "d", "e"])
print(my_series)

Ahora, para acceder a una entrada en particular, lo haremos con las nuevas etiquetas:

In [None]:
print(my_series["c"])

También podemos crear Series a partir de diccionarios. En este caso, las claves se corresponderán con las etiquetas de las series, y los valores del diccionario con los valores que toman las entradas de la Serie.

In [None]:
videos = {"day1": 5, "day2": 9, "day3": 7, "day4": 6, "day5": 8}
my_series = pd.Series(videos)
print(my_series)