**¿Qué es Pandas?**

Pandas es una muy popular librería de código abierto dentro de los desarrolladores de Python, y sobre todo dentro del ámbito de Data Science y Machine Learning, ya que ofrece unas estructuras muy poderosas y flexibles que facilitan la manipulación y tratamiento de datos.

Pandas surgió como necesidad de aunar en una única librería todo lo necesario para que un analista de datos pudiese tener en una misma herramienta todas las funcionalidades que necesitaba en su día a día, como son: cargar datos, modelar, analizar, manipular y prepararlos.

## Introducción

Las dos estructuras de datos principales dentro del paquete Pandas son:

- **Series:** array unidimensional etiquetado capaz de almacenar cualquier tipo de dato.

- **DataFrame:** estructura bidimensional con columnas que pueden ser también de cualquier tipo. Estas columnas son a su vez Series.




En `Python`, para definir un dataframe, en primer lugar necesitamos importar el módulo `pandas`.

In [1]:
import pandas as pd


---

A continuación, si queremos un dataframe de 5 filas y 2 columnas, podemos hacerlo a partir de un diccionario, una lista de listas, una lista de diccionarios, etc.


#### Ejemplo 1

Vamos a crear un dataframe de 5 filas y 2 columnas a partir de un diccionario.

Para ello, primero creamos un diccionario donde las claves serán los nombres de las columnas y los valores serán listas, con tantos elementos como número de filas queramos.

Finalmente, convertimos ese diccionario a dataframe con la función `DataFrame()` de `pandas`:

In [2]:
data = {"x": [1, 2, 3, 4, 5], 
        "y": [2, 4, 6, 8, 10]}
df1 = pd.DataFrame(data = data)
print(df1)

   x   y
0  1   2
1  2   4
2  3   6
3  4   8
4  5  10


In [3]:
display(df1)

Unnamed: 0,x,y
0,1,2
1,2,4
2,3,6
3,4,8
4,5,10


Como habíamos dicho, hemos creado un dataframe de 5 filas y dos columnas, llamadas `x` e `y` respectivamente.

**Observación.** Como resultado del `print()`, no solamente hemos obtenido las 5 filas y 2 columnas, sino que hay una columna adicional de 5 números ordenados verticalmete del 0 al 4. Se trata simplemente del nombre de cada fila, que por defecto es el índice de cada fila. El 0 indica la primera fila; el 1, la segunda; y así, sucesivamente.

---

#### Ejemplo 2

Vamos a crear el mismo dataframe de 5 filas y 2 columnas, con la diferencia de que vamos a modificar el nombre de las filas.

Lo haremos a partir del diccionario `data` y utilizaremos el parámetro `index` de la función `DataFrame()` de `pandas`

In [4]:
df3 = pd.DataFrame(data = data, index = ["obs1", "obs2", "obs3", "obs4", "obs5"])
print(df3)

      x   y
obs1  1   2
obs2  2   4
obs3  3   6
obs4  4   8
obs5  5  10


En este caso, al parámetro `index` le hemos pasado una lista con 5 strings.

**¡Cuidado!.** Al construir un dataframe a partir de un diccionario (o cualquier objeto de `Python` que contenga algún diccionario), los nombres de las columnas son las claves del diccionario. Si quisiésemos cambiarlos con el parámetro `columns` directamente, nos pasaría lo siguiente:

In [7]:
d = {"a": [1, 2, 3],
     "b": [4, 5, 6],
     "b1": [7, 8, 9]}

df = pd.DataFrame(d, columns = ["a", "b", "c"])
display(df)

Unnamed: 0,a,b,c
0,1,4,
1,2,5,
2,3,6,


## Subdataframes

**Subdataframe.** Dado un dataframe, un subdataframe no es más que la selección de unas filas y columnas en particular.




### Columnas

Dado un dataframe, podemos seleccionar una columna en particular de diversas formas:

- Indicando el nombre de la columna entre claudators, `[]`
- Con el método `.columns[]`
- Con el método `.loc[]` (por nombre o etiqueta)
- Con el método `.iloc[]` (por posición)

In [None]:
fdata = {"Name": ["Alicia", "Bill", "Carlos", "Diana"],
        "Age": [22, 28, 19, 34],
        "Pet": [True, False, False, True],
        "Height": [157, 190, 175, 164],
        "Birthday": ["Mayo", "Junio", "Agosto", "Diciembre"]}

df = pd.DataFrame(data = fdata, index = ["obs1", "obs2", "obs3", "obs4"])

In [None]:
df

Unnamed: 0,Name,Age,Pet,Height,Birthday
obs1,Alicia,22,True,157,Mayo
obs2,Bill,28,False,190,Junio
obs3,Carlos,19,False,175,Agosto
obs4,Diana,34,True,164,Diciembre


In [None]:
# Seleccionamos la columna Birthday por nombre
print(df["Birthday"])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


In [None]:
# Seleccionamos la columna Birthday con el método .columns[]
print(df[df.columns[4]])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


In [None]:
# Seleccionamos la columna Birthday con el método .loc[]
print(df.loc[:, "Birthday"])

obs1         Mayo
obs2        Junio
obs3       Agosto
obs4    Diciembre
Name: Birthday, dtype: object


**Observación.** Al método `.loc[]` le hemos indicado que tome todas las filas con `:` en la primera posición y la columna `"Birthday"` directamente indicando su nombre en la segunda posición.

In [None]:
# Seleccionamos la columna Birthday con el método .iloc[]
print(df.iloc[:, 4])

0         Mayo
1        Junio
2       Agosto
3    Diciembre
Name: Birthday, dtype: object


**Observación.** Al método `.iloc[]` le hemos indicado que tome todas las filas con `:` en la primera posición y la columna `"Birthday"` indicando el índice que ocupa como columna.

Si quisiésemos seleccionar más de una columna, podríamos hacerlo con todas las opciones enumeradas anteriormente, con ligeras modificaciones en algunos casos:

In [None]:
# Seleccionamos las columnas Name y Age por nombre
print(df[["Name", "Age"]])

        Name  Age
obs1  Alicia   22
obs2    Bill   28
obs3  Carlos   19
obs4   Diana   34


In [None]:
# Seleccionamos las columnas Name y Age con el método .columns[]
print(df[df.columns[[0, 1]]])

        Name  Age
obs1  Alicia   22
obs2    Bill   28
obs3  Carlos   19
obs4   Diana   34


**Observación.** Además, como estas dos columnas están seguidas en nuestro dataframe, podríamos también usar la sintaxis siguiente no solo en esta opción, sino también en el resto de opciones que hemos visto.

In [None]:
print(df[df.columns[0:2]])

        Name  Age
obs1  Alicia   22
obs2    Bill   28
obs3  Carlos   19
obs4   Diana   34


In [None]:
# Seleccionamos las columnas Name y Age con el método .loc[]
print(df.loc[:, ["Name", "Age"]])

        Name  Age
obs1  Alicia   22
obs2    Bill   28
obs3  Carlos   19
obs4   Diana   34


In [None]:
print(df.loc[:, "Name":"Age"])

        Name  Age
obs1  Alicia   22
obs2    Bill   28
obs3  Carlos   19
obs4   Diana   34


**¡Cuidado!** Como podemos ver, al usar `:` con strings, el indicado a la derecha sí que es incluido.

In [None]:
# Seleccionamos las columnas Name y Age con el método .iloc[]
print(df.iloc[:, [0, 1]])

        Name  Age
obs1  Alicia   22
obs2    Bill   28
obs3  Carlos   19
obs4   Diana   34


In [None]:
print(df.iloc[:, 0:2])

        Name  Age
obs1  Alicia   22
obs2    Bill   28
obs3  Carlos   19
obs4   Diana   34


### Filas

Dado un dataframe, podemos seleccionar una fila en particular de diversas formas:

- Con el método `.loc[]` (por nombre o etiqueta)
- Con el método `.iloc[]` (por posición)


In [None]:
# Seleccionamos la primera observación (obs1) con el método .loc[]
print(df.loc["obs1"])

Name        Alicia
Age             22
Pet           True
Height         157
Birthday      Mayo
Name: obs1, dtype: object


In [None]:
# Seleccionamos la última observación con el método .iloc[]
print(df.iloc[-1])

Name            Diana
Age                34
Pet              True
Height            164
Birthday    Diciembre
Name: obs4, dtype: object


Si quisiésemos seleccionar más de una fila, podríamos hacerlo con todas las opciones enumeradas anteriormente, con ligeras modificaciones en algunos casos:

In [None]:
# Seleccionamos la segunda y tercera observación con el método .loc[]
print(df.loc[["obs2","obs3"]])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


**Observación.** Además, como estas dos filas están seguidas en nuestro dataframe, podríamos también usar la sintaxis siguiente no solo en esta opción, sino también en el resto de opciones que hemos visto.

In [None]:
print(df.loc["obs2":"obs3"])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


In [None]:
# Seleccionamos la segunda y tercera observación con el método .iloc[]
print(df.iloc[[1, 2]])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


In [None]:
print(df.iloc[1:3])

        Name  Age    Pet  Height Birthday
obs2    Bill   28  False     190    Junio
obs3  Carlos   19  False     175   Agosto


### Filas y columnas

Para seleccionar un elemento en concreto, hay que indicar la fila y la columna y lo podemos hacer de dos formas:

- Con el método `.loc[]` (por nombre o etiqueta)
- Con el método `.iloc[]` (por índice)

In [None]:
# Seleccionamos la edad de la segunda observación con el método .loc[]
print(df.loc["obs2", "Age"])

28


In [None]:
# Seleccionamos la edad de la segunda observación con el método .iloc[]
print(df.iloc[1, 1])

28


Si queremos seleccionar un subconjunto de filas y columnas, podemos utilizar los dos métodos anteriores

In [None]:
# Seleccionamos la segunda y tercera fila y las columnas nombre y cumpleaños
# Con el método .loc[]
print(df.loc["obs2":"obs3", ["Name", "Birthday"]])

        Name Birthday
obs2    Bill    Junio
obs3  Carlos   Agosto


In [None]:
# Con el método .iloc[]
print(df.iloc[1:3, [0, 4]])

        Name Birthday
obs2    Bill    Junio
obs3  Carlos   Agosto


## Métodos de dataframes

El método `.head()` sirve para visualizar las primeras filas del dataframe. Por defecto, se nos mostrarán las 5 primeras



In [None]:
import pandas as pd

In [None]:
d = {"fruit": ["sandía", "melón", "manzana", "cerezas", "plátano", "pera", "melocotón", "fresas"],
     "count": [1, 1, 6, 10, 3, 6, 4, 10]}

df = pd.DataFrame(d)

In [None]:
df.head()

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3


Si queremos que se nos muestre un número determinado de filas, tenemos que indicarlo por parámetro:

In [None]:
df.head(3)

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6


In [None]:
df.head(6)

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6


El método `.tail()` sirve para visualizar las últimas filas del dataframe. Por defecto, se nos mostrarán las 5 últimas

In [None]:
df.tail()

Unnamed: 0,fruit,count
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


Si queremos que se nos muestre un número determinado de filas, tenemos que indicarlo por parámetro:

In [None]:
df.tail(3)

Unnamed: 0,fruit,count
5,pera,6
6,melocotón,4
7,fresas,10


In [None]:
df.tail(6)

Unnamed: 0,fruit,count
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,melocotón,4
7,fresas,10


El método `.copy()` nos sirve para realizar una copia de un dataframe.

Si simplemente realizamos

In [None]:
fruits = df

El dataframe llamado `fruits` es solo una referencia del dataframe original `df` pues si realizamos algún cambio en `fruits`, se realiza también en `df`

In [None]:
fruits.iloc[6, 0] = "naranja"
fruits

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
7,fresas,10


In [None]:
df

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
7,fresas,10


En cambio, si `fruits` es definido como

In [None]:
fruits = df.copy()

entonces ahora sí es una copia independiente del dataframe original y por muchos cambios que hagamos sobre dicha copia, el original se mantiene intacto

In [None]:
fruits.iloc[6, 0] = "nectarina"
fruits

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,nectarina,4
7,fresas,10


In [None]:
df

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
7,fresas,10


El método `.rename()` se puede utilizar tanto para cambiar las etiquetas de las filas como los nombres de las columnas.

**¡Cuidado!** Para que los cambios se guarden en el dataframe original, necesitamos indicar `inplace = True`, de lo contrario, lo único que estamos haciendo es duplicar el dataframe, cambiando el nombre de las filas o columnas

In [None]:
df.rename(columns = {"fruit": "fruta",
                     "count": "cantidad"})
df

Unnamed: 0,fruit,count
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
7,fresas,10


In [None]:
# Cambiamos el nombre de las columnas al dataframe original
df.rename(columns = {"fruit": "fruta",
                     "count": "cantidad"},
          inplace = True)
df

Unnamed: 0,fruta,cantidad
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
7,fresas,10


In [None]:
df.rename(index = {0: "obs1",
                   1: "obs2",
                   7: "obs8"})
df

Unnamed: 0,fruta,cantidad
0,sandía,1
1,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
7,fresas,10


In [None]:
# Cambiamos el nombre de las filas al dataframe original
df.rename(index = {0: "obs1",
                   1: "obs2",
                   7: "obs8"},
          inplace = True)
df

Unnamed: 0,fruta,cantidad
obs1,sandía,1
obs2,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
obs8,fresas,10


Con el método `.columns` también podemos cambiar el nombre de las columnas:

In [None]:
df.columns

Index(['fruta', 'cantidad'], dtype='object')

In [None]:
df.columns = ["FRUTA", "CANTIDAD"]
df

Unnamed: 0,FRUTA,CANTIDAD
obs1,sandía,1
obs2,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
obs8,fresas,10


El método `.insert()` inserta una nueva columna a un dataframe existente

In [None]:
df.insert(loc = 2, column = "PRECIO", value = [2.50, 2.00, 0.35, 0.10, 0.35, 0.20, 0.15, 0.05])
df

Unnamed: 0,FRUTA,CANTIDAD,PRECIO
obs1,sandía,1,2.5
obs2,melón,1,2.0
2,manzana,6,0.35
3,cerezas,10,0.1
4,plátano,3,0.35
5,pera,6,0.2
6,naranja,4,0.15
obs8,fresas,10,0.05


Al parámetro `loc` le indicamos el índice que ocupará la nueva columna; al parámetro `column` le pasamos el nombre de la nueva columna; y al parámetro `value`, los valores para cada una de las filas.

**Observación.** Si al parámetro `loc` le pasamos un índice ya ocupado por otra columna, se desplazan la columna existente y las de índices superiores un índice a la derecha.

**Observación.** Si al parámetro `value` solo le pasamos un valor, éste será el mismo para todas las filas


In [None]:
df.insert(1, "COLOR", "rojo")
df

Unnamed: 0,FRUTA,COLOR,CANTIDAD,PRECIO
obs1,sandía,rojo,1,2.5
obs2,melón,rojo,1,2.0
2,manzana,rojo,6,0.35
3,cerezas,rojo,10,0.1
4,plátano,rojo,3,0.35
5,pera,rojo,6,0.2
6,naranja,rojo,4,0.15
obs8,fresas,rojo,10,0.05


El método `.drop()` nos permite borrar las filas o columnas que indiquemos

**¡Cuidado!** De nuevo, si queremos aplicar directamente los cambios al dataframe original, necesitamos indicar `inplace = True`

In [None]:
# Eliminamos filas (axis = 0) por etiqueta
df_dropped = df.drop(labels = ["obs1", 4], axis = 0)
df_dropped

Unnamed: 0,FRUTA,COLOR,CANTIDAD,PRECIO
obs2,melón,rojo,1,2.0
2,manzana,rojo,6,0.35
3,cerezas,rojo,10,0.1
5,pera,rojo,6,0.2
6,naranja,rojo,4,0.15
obs8,fresas,rojo,10,0.05


In [None]:
# Eliminamos columnas (axis = 1) por etiqueta
df_dropped = df.drop(labels = ["COLOR", "PRECIO"], axis = 1)
df_dropped

Unnamed: 0,FRUTA,CANTIDAD
obs1,sandía,1
obs2,melón,1
2,manzana,6
3,cerezas,10
4,plátano,3
5,pera,6
6,naranja,4
obs8,fresas,10


El método `.pop()` elimina la columna que indiquemos por parámetro

In [None]:
column_popped = df.pop("COLOR")
df

Unnamed: 0,FRUTA,CANTIDAD,PRECIO
obs1,sandía,1,2.5
obs2,melón,1,2.0
2,manzana,6,0.35
3,cerezas,10,0.1
4,plátano,3,0.35
5,pera,6,0.2
6,naranja,4,0.15
obs8,fresas,10,0.05


In [None]:
column_popped

obs1    rojo
obs2    rojo
2       rojo
3       rojo
4       rojo
5       rojo
6       rojo
obs8    rojo
Name: COLOR, dtype: object

In [None]:
# Volvemos a añadir la columna recientemente eliminada al final del dataframe con una sintaxis que no habíamos visto todavía
df["COLOR"] = column_popped
df

Unnamed: 0,FRUTA,CANTIDAD,PRECIO,COLOR
obs1,sandía,1,2.5,rojo
obs2,melón,1,2.0,rojo
2,manzana,6,0.35,rojo
3,cerezas,10,0.1,rojo
4,plátano,3,0.35,rojo
5,pera,6,0.2,rojo
6,naranja,4,0.15,rojo
obs8,fresas,10,0.05,rojo


El método `.dtypes` nos indica de qué tipo es cada columna del dataframe

In [None]:
df.dtypes

FRUTA              object
CANTIDAD            int64
PRECIO            float64
COLOR              object
RANKING_FRUTA     float64
RANKING_PRECIO    float64
dtype: object

## Dataframes a partir de archivos CSV

Podemos guardar la información de un archivo csv en un dataframe usando la función `read_csv()`.

El archivo puede

- estar guardado en nuestro directorio de trabajo
- proceder de una url



In [8]:
simpsons_df = pd.read_csv(".\Data\Simpsons-Characters.csv")
simpsons_df.head()

Unnamed: 0,Character,Voiced by,Description/role,First appearance
0,Homer Simpson,Dan Castellaneta,"Husband of Marge; father of Bart, Lisa, and Ma...","""Good Night"" (The Simpsons shorts)"
1,Marge Simpson,Julie Kavner,"Wife of Homer; mother of Bart, Lisa, and Maggie.","""Good Night"""
2,Bart Simpson,Nancy Cartwright,Oldest child and only son of Homer and Marge; ...,"""Good Night"""
3,Lisa Simpson,Yeardley Smith,Middle child and oldest daughter of Homer and ...,"""Good Night"""
4,Maggie Simpson,Various,Youngest child (the baby) and daughter of Home...,"""Good Night"""


In [9]:
simpsons_df.tail()

Unnamed: 0,Character,Voiced by,Description/role,First appearance
148,Groundskeeper Willie,Dan Castellaneta,Janitor of Springfield Elementary School.,"""Principal Charming"""
149,Wiseguy,Hank Azaria,Service industry.,"""The Way We Was"""
150,"Wolfcastle, Rainier",Harry Shearer,Actor; star of McBain films.,"""The Way We Was"""
151,Yes Guy,Dan Castellaneta,Service industry.,"""Mayored to the Mob"""
152,"Ziff, ArtieArtie Ziff","Jon Lovitz, Dan Castellaneta",Former billionaire.,"""The Way We Was"


### Desde url

Vamos a cargar el archivo que contiene la frecuencia de aparición de las letras del alfabeto inglés. Este archivo se llama letter_frequency.csv procede de la siguiente [url](https://people.sc.fsu.edu/~jburkardt/data/csv/letter_frequency.csv)

In [10]:
letters_freq_df = pd.read_csv("https://people.sc.fsu.edu/~jburkardt/data/csv/letter_frequency.csv")
letters_freq_df.columns = ["Letra", "Frecuencia", "Porcentaje"]
letters_freq_df

Unnamed: 0,Letra,Frecuencia,Porcentaje
0,"""A""",24373121,8.1
1,"""B""",4762938,1.6
2,"""C""",8982417,3.0
3,"""D""",10805580,3.6
4,"""E""",37907119,12.6
5,"""F""",7486889,2.5
6,"""G""",5143059,1.7
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
9,"""J""",474021,0.2


## Filtrando dataframes

Dado un dataframe, podemos filtrar sus filas comprobando cuáles satisfacen una condición

In [None]:
# Mostramos las observaciones con porcentaje mayor a 5
letters_freq_df[letters_freq_df["Porcentaje"] > 5]

Unnamed: 0,Letra,Frecuencia,Porcentaje
0,"""A""",24373121,8.1
4,"""E""",37907119,12.6
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
13,"""N""",21402466,7.1
14,"""O""",23215532,7.7
17,"""R""",17897352,5.9
18,"""S""",19059775,6.3
19,"""T""",28691274,9.5


In [None]:
# Mostramos las observaciones con frecuencia menor o igual a la de la letra S
freq_S = letters_freq_df.loc[18, "Frecuencia"]
letters_freq_df[letters_freq_df["Frecuencia"] <= freq_S]

Unnamed: 0,Letra,Frecuencia,Porcentaje
1,"""B""",4762938,1.6
2,"""C""",8982417,3.0
3,"""D""",10805580,3.6
5,"""F""",7486889,2.5
6,"""G""",5143059,1.7
7,"""H""",18058207,6.0
9,"""J""",474021,0.2
10,"""K""",1720909,0.6
11,"""L""",11730498,3.9
12,"""M""",7391366,2.5
