![](https://import.cdn.thinkific.com/220744/BExaQBPPQairRWFqxFbK_logo_mastermind_web_png)

# Qué es Pandas?

**Pandas** es la librería por excelencia para manipular datos tabulares con **Python**. Recordamos que estos datos tabulares se refieren a *tablas*, y es una forma de representar datos _estructurados_. Ya que estos datos serán los que trabajaremos el 99% de las veces, al menos en este curso, es crucial conocer las herramientas para poder manipular estos datos como nos convenga!

Esta librería introduce el objeto _DataFrame_, una forma de representar estos datos. Como todos los objetos en **Python**, estos _DataFrames_ disponen de una serie de métodos y atributos para tener el control total sobre ellos. En este capítulo revisaremos los más importantes!

Lo primero que haremos será importar la librería de **Pandas**, que la tendréis instalada por defecto. Esta vez como **pd**:

In [None]:
import pandas as pd

# También importaremos NumPy, ya que lo necesitaremos:

import numpy as np

Un DataFrame es un objeto de Python que muestra datos de forma _tabular_, es decir, un array de 2 dimensiones que tiene _filas_(eje 0) y _columnas_ (eje 1).

![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

A su vez, los DataFrames están creados por objetos más pequeños llamados **Pandas Series**. Dicho de una forma sencilla, los _Series_ son las columnas individuales, con las siguientes propiedades:
- Cada elemento de la columna tiene asignado un índice en el eje 0 (las filas).
- El nombre de la columna es el atributo `name` del Pandas Series
- Los valores de la columna son un `NumPy Array`, con los pros y contras que eso conlleva. Se pueden hacer operaciones elemento por elemento, son rápidos de operar, y deben ser homogéneos: sólo pueden contener un tipo de dato cada uno de estos _Series_. Además, se pueden usar las funciones de **Numpy** en estas columnas.

![](https://www.educative.io/api/page/5494232312709120/image/download/6456886820864000)

# Creando un DataFrame

Para crear un DataFrame tenemos muchas opciones, ya que estos _datos tabulares_ pueden venir en muchas formas. Nosotros nos centraremos en dos los dos métodos más habituales:
- Desde un archivo local (descargado en tu ordenador) en forma de archivo **.csv**
- Creándolo desde un **diccionario de Python**

## Desde un archivo local .csv

Estos archivos **.csv** son muy comunes y pueden descargarse de muchos lugares de forma gratuita! En este caso disponemos de un archivo llamado _mastermind.csv_ que os he facilitado en la primera lección del capítulo. Y para transformarlo en un _DataFrame_, usaremos la función *pd.read_csv()*.

Esta función acepta una gran cantidad de parámetros, podéis echarles un vistazo [aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), aunque para funcionar sólo necesita uno de ellos: la ruta [absoluta](https://es.wikipedia.org/wiki/Ruta_(inform%C3%A1tica)#Ruta_absoluta) o [relativa](https://es.wikipedia.org/wiki/Ruta_(inform%C3%A1tica)#Ruta_relativa) de nuestro archivo **.csv**

> [pd.read_csv(*ruta_archivo*)](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)   


Al usar esta función, siempre asignaremos a una variable (comúnmente llamada **df**), el output que ésta genera.


In [None]:
df = pd.read_csv('../Inteligencia Artificial/mastermind.csv')

df

Unnamed: 0.1,Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,0,SFDX Show,Hardware,30,130855,H
1,1,Sara Nogark,Edición de vídeo,29,114175,M
2,2,Nate Gentile,Programación,31,142545,H
3,3,Bettatech,Programación,31,149462,H
4,4,Antonio Sarosi,Sistemas Operativos,28,132008,H
5,5,Edgar Pons,Robótica,29,143620,H
6,6,s4vitar,Hacking,28,132567,H


Como vemos, ha importado correctamente nuestro archivo, pero hay una de la primera columna contiene una información rara: la columna `Unnamed: 0`. Esto sucede porque **Pandas** genera un índice que manera automática a la hora de generar un *DataFrame*, y éste en concreto, ya disponía de un *índice* propio, que lo ha asignado a esa columna.  
Para que esto no suceda, le especificaremos con el argumento `index_col` el número de columna que queremos que use de índice, en este caso la primera, la número `0`:

In [None]:
df = pd.read_csv('../Inteligencia Artificial/mastermind.csv', index_col=[0])

df

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
5,Edgar Pons,Robótica,29,143620,H
6,s4vitar,Hacking,28,132567,H


## Desde un diccionario

Si queremos crear nuestro propio _DataFrame_ con datos que generamos desde el mismo *Notebook*, la forma más sencilla es desde un _diccionario_ de **Python**. En este caso, cada par `llave:valores` será una columna de nuestro _DataFrame_, siendo la `llave` el nombre de la columna y `valores` los elementos que ésta contenga.

Es importante saber que las lista de valores que contengan este _diccionario_ deben tener todas la misma **longitud**, ya que **no podemos** tener un _DataFrame_ en el que cada columna tenga un número de elementos diferente. Dicho de otro modo, el índice de nuestro _DataFrame_ debe ser el mismo para todas las columnas:

In [None]:
datos = {'nombre': ['SFDX Show', 'Sara Nogark', 'Nate Gentile', 'Bettatech', 'Antonio Sarosi', 'Edgar Pons', 's4vitar'],
         'especialidad': list(df['especialidad']),
         'edad': [ np.random.randint(28, 31) for i in range(len(df['nombre']))],
         'visitas' : [np.random.randint(100000, 150000) for i in range(len(df['nombre']))]}

Una vez tenemos nuestro diccionario, podemos transformarlo a _DataFrame_ con esta función:

> [pd.DataFrame(_diccionario_)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

In [None]:
df_inventado = pd.DataFrame(datos)

df_inventado

Unnamed: 0,nombre,especialidad,edad,visitas
0,SFDX Show,Hardware,30,135391
1,Sara Nogark,Edición de vídeo,29,109019
2,Nate Gentile,Programación,28,120603
3,Bettatech,Programación,29,143970
4,Antonio Sarosi,Sistemas Operativos,30,105796
5,Edgar Pons,Robótica,28,149084
6,s4vitar,Hacking,29,103389


# Explorando un DataFrame

Una vez que tenemos nuestro _DataFrame_ construido, es necesario saber cómo podemos ver todo su contenido, que podemos consultar usando las columnas (Pandas Series), o usando las filas:

## Mostrando columnas

Para mostrar una columna (o _insisto_, un **Pandas Series**), simplemente usaremos un accesor indicando el nombre de la columna:

> [df[*nombre_columna*]](https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html)

In [None]:
df['nombre']

0         SFDX Show
1       Sara Nogark
2      Nate Gentile
3         Bettatech
4    Antonio Sarosi
5        Edgar Pons
6           s4vitar
Name: nombre, dtype: object

In [None]:
type(df['nombre'])

pandas.core.series.Series

Este _Pandas Series_ lo podemos usar como un _array_ normal, accediendo a cada elemento también por su número de índice:

In [None]:
columna = df['nombre']

columna[0]

'SFDX Show'

También podemos indicar varias columnas para mostrar, pero en este caso no nos devolverá un _Pandas Series_, ya que no es una columna individual, sinó un DataFrame filtrado. Y podemos acceder a estas columnas usando **lista de strings** con los nombres de las columnas:

In [None]:
df[['nombre', 'especialidad']]

Unnamed: 0,nombre,especialidad
0,SFDX Show,Hardware
1,Sara Nogark,Edición de vídeo
2,Nate Gentile,Programación
3,Bettatech,Programación
4,Antonio Sarosi,Sistemas Operativos
5,Edgar Pons,Robótica
6,s4vitar,Hacking


In [None]:
type(df[['nombre', 'especialidad']])

pandas.core.frame.DataFrame

En nuestro caso, tenemos un _DataFrame_ de sólo 7 filas, que podemos ver totalmente en  pantalla. Pero qué pasaría si tuviera 700.000 (que es habitual)? La cosa se complica.

Para ello, **Pandas** dispone de una serie de métodos para poder mostrar un número limitado de filas en nuestros dataframes:

## Mostrando filas

### df.head()

El primer método del que disponemos (y de los más usados), es el de **mostrar las primeras filas**:

> [df.head(*n_filas*)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html)

In [None]:
df.head(2)

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M


Si no indicamos ningún argumento en este método, por defecto nos mostrará `5` filas

### df.tail()

`df.tail` funciona de la misma manera, sólo que nos mostrará **las últimas filas**:

> [df.tail(*n_filas*)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html)

In [None]:
df.tail(2)

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
5,Edgar Pons,Robótica,29,143620,H
6,s4vitar,Hacking,28,132567,H


### df.sample()

Este método funciona de manera similar a `df.head`y `df.tail`, sólo que en este caso nos mostrará **filas aleatorias** y desordenadas. Si no indicamos el número de filas, nos devolverá sólo una:

> [df.sample(*n_filas*)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html)

In [None]:
df.sample()

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
6,s4vitar,Hacking,28,132567,H


In [None]:
df.sample(3)

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
6,s4vitar,Hacking,28,132567,H
2,Nate Gentile,Programación,31,142545,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H


## Información

Tenemos otras maneras de conseguir información de nuestro _DataFrame_, no sólo viendo un número de filas:

### df.info()

Esta función nos muestra información importante de nuestro _DataFrame_:
- El número de filas
- El número de columnas
- Cómo se llama cada columna
- Qué tipo de datos contiene
- Cuántos valores nulos contiene cada columna

> [df.info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   nombre        7 non-null      object
 1   especialidad  7 non-null      object
 2   edad          7 non-null      int64 
 3   visitas       7 non-null      int64 
 4   sexo          7 non-null      object
dtypes: int64(2), object(3)
memory usage: 636.0+ bytes


### df.describe()

Si tenemos columnas numéricas, esta función nos permite conocer sus medidas estadísticas principales: cuenta los valores, `media`, `mediana`, `desviacion estandar`, `mínimo`, `1 IQR`, `mediana`, `3 IQR` y `máximo`.

> [df.describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)

In [None]:
df.describe()

Unnamed: 0,edad,visitas
count,7.0,7.0
mean,29.428571,135033.142857
std,1.272418,11590.990631
min,28.0,114175.0
25%,28.5,131431.5
50%,29.0,132567.0
75%,30.5,143082.5
max,31.0,149462.0


## Atributos

Los *DataFrames* disponen de _atributos_, como cualquier objeto en **Python**. Éstos nos muestran información básica de nuestro objeto:

### df.shape

Devuelve la forma de nuestro _DataFrame_ en forma de tupla:
`(n_filas, n_columnas)`

In [None]:
df.shape

(7, 5)

### df.columns

Si queremos saber los nombres de nuestras columnas, éste atributo nos lo devuelve en forma de _array_:

In [None]:
df.columns

Index(['nombre', 'especialidad', 'edad', 'visitas', 'sexo'], dtype='object')

### df.index

Lo mismo ocurre con los índices de nuestro _DataFrame_!

In [None]:
df.index

Int64Index([0, 1, 2, 3, 4, 5, 6], dtype='int64')

# Selección de elementos (Subset)

Hay situaciones (muchas) en las que necesitamos acceder a valores concretos en nuestro _DataFrame_ ya sea para consultarlos o modificarlos. Para ello, miraremos 3 de las maneras posibles:

## Acceso mediante etiquetas

> df[columna][fila]

In [None]:
df['especialidad'][2]

'Programación'

Para encontrar valores según una condición, usaremos una **Máscara booleana** mediante una **comparación**:

In [None]:
condicion = df['nombre'] == 'Nate Gentile'

condicion

0    False
1    False
2     True
3    False
4    False
5    False
6    False
Name: nombre, dtype: bool

Cuando realizamos una comparación en una columna, **Pandas** nos la devuelve en forma de _pandas series_ sustituyendo los valores por **valores booleanos** (_true, false_) dependiendo si cumplen la condición que le hemos indicado.

Luego podemos usar esta condición para mostrar en nuestro DataFrame las filas cuyo valor en su máscara booleana sea `True`:

In [None]:
df[condicion]

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
2,Nate Gentile,Programación,31,142545,H


## df.iloc[]

La segunda de las maneras para encontrar valores es el método `df.iloc`. iloc, de **I**nteger **LOC**ation, accede a los valores mediante los índices numéricos, tanto de las filas como de las columnas.

En este caso, se puede aplicar tanto un valor individual, como un rango de valores para mostrar más de un elemento (como hacemos en las listas). Por ejemplo, el elemento `1` o los elementos `1:3`, teniendo en cuenta que el último elemento **no es inclusivo**, por lo que no se mostrará:

> [df.iloc[*rango_indice_filas, rango_indice_columnas*]](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

Recordamos también que cuando usamos estos números enteros, empezamos a contar desde el `0`:

In [None]:
df.iloc[2, 3] # tercera fila, cuarta columna

142545

In [None]:
df.iloc[2,0:2] # tercera fila, primera y segunda columna

nombre          Nate Gentile
especialidad    Programación
Name: 2, dtype: object

## df.loc[]

Similar al comportamiento de **iloc**, podemos usar `df.loc`. En este caso, **location** funciona mediante etiquetas, es decir, los strings que componen tanto las columnas, como los índices (si hubieran strings). También se puede indicar un rango de elementos!

> [df.loc[etiqueta_indice, etiqueta_columna]](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)

In [None]:
df.loc[2, 'nombre':'especialidad']

nombre          Nate Gentile
especialidad    Programación
Name: 2, dtype: object

# Manipulación de Datos

Existen varias funciones y métodos para realizar cambios en nuestro _DataFrame_, lo que se conoce como la **manipulación de datos**:

## df.set_index()

Hay casos en los que nos interesa cambiar nuestro índice, habitualmente numérico, por otra columna de las que tenemos en nuestro _DataFrame_, como por ejemplo _nombres_ o _fechas_. Para ello, podemos usar el método `df.set_index()`:

> [df.set_index(*nombre_columna*)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html)

In [None]:
df.head()

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H


In [None]:
df.set_index('nombre')

Unnamed: 0_level_0,especialidad,edad,visitas,sexo
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SFDX Show,Hardware,30,130855,H
Sara Nogark,Edición de vídeo,29,114175,M
Nate Gentile,Programación,31,142545,H
Bettatech,Programación,31,149462,H
Antonio Sarosi,Sistemas Operativos,28,132008,H
Edgar Pons,Robótica,29,143620,H
s4vitar,Hacking,28,132567,H


Una vez hemos usado `df.set_index()`, si volvemos a llamar a nuestro DataFrame, veremos que los cambios no se han realizado:

In [None]:
df.head()

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H


Esto sucede porque hay un _argumento_ dentro de éste y otros métodos de manipulación que define si el cambio se hace en el propio _DataFrame_, o sea, si realmente quieres modificarlo. Este argumento se llama `inplace` y por defecto viene desactivado. Si queremos activarlo, tendremos que indicarlo explícitamente:

In [None]:
df.set_index('nombre', inplace=True)

In [None]:
df.head() # Ahora sí que se han realizado permanentemente los cambios

Unnamed: 0_level_0,especialidad,edad,visitas,sexo
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SFDX Show,Hardware,30,130855,H
Sara Nogark,Edición de vídeo,29,114175,M
Nate Gentile,Programación,31,142545,H
Bettatech,Programación,31,149462,H
Antonio Sarosi,Sistemas Operativos,28,132008,H


## df.reset_index()

Si queremos volver a dejar nuestro índice de la manera por defecto, es decir, utilizando un rango numérico, podemos usar este método. Observa que también requiere del argumento `inplace` para que los cambios sean permanentes:

> [df.reset_index(inplace=False)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html)

In [None]:
df.reset_index()

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
5,Edgar Pons,Robótica,29,143620,H
6,s4vitar,Hacking,28,132567,H


In [None]:
df.head() #No hay cambios

Unnamed: 0_level_0,especialidad,edad,visitas,sexo
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SFDX Show,Hardware,30,130855,H
Sara Nogark,Edición de vídeo,29,114175,M
Nate Gentile,Programación,31,142545,H
Bettatech,Programación,31,149462,H
Antonio Sarosi,Sistemas Operativos,28,132008,H


In [None]:
df.reset_index(inplace=True) # Usando inplace el cambio es permanente:

In [None]:
df.head()

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H


## df.apply()

En **Pandas** disponemos de una navaja suiza que nos permite usar cualquier función, incluso de otras librerías, para modificar los valores de nuestras columnas: el método `.apply()`.

> [df.apply(*nombre_funcion*)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)

_nota: hay algunas funciones que por su naturaleza no funcionarán con un pd.Series o con un pd.Dataframe_

In [None]:
df['edad'].apply(np.sqrt)

0    5.477226
1    5.385165
2    5.567764
3    5.567764
4    5.291503
5    5.385165
6    5.291503
Name: edad, dtype: float64

De lo mejorcito de este método es poder usar [funciones Lambda](https://towardsdatascience.com/lambda-functions-with-practical-examples-in-python-45934f3653a8) (nativas de Python) para cualquier uso:

In [None]:
df['especialidad']

0               Hardware
1       Edición de vídeo
2           Programación
3           Programación
4    Sistemas Operativos
5               Robótica
6                Hacking
Name: especialidad, dtype: object

In [None]:
df['especialidad'].apply(lambda x: x.upper())

0               HARDWARE
1       EDICIÓN DE VÍDEO
2           PROGRAMACIÓN
3           PROGRAMACIÓN
4    SISTEMAS OPERATIVOS
5               ROBÓTICA
6                HACKING
Name: especialidad, dtype: object

Podemos también usarla con un _DataFrame_:

In [None]:
df[['nombre','especialidad']].apply(lambda x: x.str.upper())

Unnamed: 0,nombre,especialidad
0,SFDX SHOW,HARDWARE
1,SARA NOGARK,EDICIÓN DE VÍDEO
2,NATE GENTILE,PROGRAMACIÓN
3,BETTATECH,PROGRAMACIÓN
4,ANTONIO SAROSI,SISTEMAS OPERATIVOS
5,EDGAR PONS,ROBÓTICA
6,S4VITAR,HACKING


## df.drop()

Si necesitamos eliminar tanto filas como columnas de nuestro _DataFrame_, `df.drop()` es nuestro método. Es importante tener en cuenta que también contiene el argumento `inplace`, **por lo que los cambios no se harán efectivos si no lo indicamos explícitamente**!

> [df.drop(*nombre_columna o fila*, _axis_)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)

El parámetro `axis` indica el eje en el que queremos eliminar la información. Le indicaremos `0` si es una fila, y `1` si es una columna:

In [None]:
df.drop(2, axis=0) # vemos que el índice 2 ya no está

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
5,Edgar Pons,Robótica,29,143620,H
6,s4vitar,Hacking,28,132567,H


In [None]:
df.drop('nombre', axis=1) # Hemos eliminado la columna 'nombre'

Unnamed: 0,especialidad,edad,visitas,sexo
0,Hardware,30,130855,H
1,Edición de vídeo,29,114175,M
2,Programación,31,142545,H
3,Programación,31,149462,H
4,Sistemas Operativos,28,132008,H
5,Robótica,29,143620,H
6,Hacking,28,132567,H


## df.drop_duplicates()

Si nuestro _DataFrame_ tiene valores duplicados en cualquiera de sus columnas, podemos eliminarlo con `df.drop_duplicates()`. Esta función eliminará la fila entera donde tengamos el duplicado. Además podemos decidir si eliminar el primer duplicado que encuentra, o el último, entre otras opciones:

> [df.drop_duplicates(*nombre_columna*, _keep_)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)

In [None]:
df

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
5,Edgar Pons,Robótica,29,143620,H
6,s4vitar,Hacking,28,132567,H


In [None]:
df.drop_duplicates('edad', keep='first')

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H


Si nos fijamos, en la columna `edad` ahora sólo tenemos un valor de cada, y se ha mantenido el primero de cada uno, por orden!

_nota: esta función también necesita el 'famoso' `inplace=True`  para confirmar los cambios!_

## df.rename()

Si necesitamos cambiar el nombre a nuestras columnas podemos usar este método. Al argumento `columns`, debemos pasarle un _diccionario_ con las llaves como columnas a cambiar, y los valores como el nuevo nombre de estas columnas:

> [df.rename(columns=_diccionario_)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)


In [None]:
df.head(1)

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H


In [None]:
df.rename(columns={'edad':'viejo'}).head(1)

Unnamed: 0,nombre,especialidad,viejo,visitas,sexo
0,SFDX Show,Hardware,30,130855,H


# Ordenación

En ocasiones querremos ordenar nuestro _DataFrame_ según los valores de alguna columna. Y tenemos varios métodos para ello!

## df.sort_values()

Este método permite seleccionar una columna y ordenar todo el _DataFrame_ dependiendo del orden de los valores de ésta. Además, podemos indicar si lo queremos en orden _ascendente_ (de menor a mayor) o viceversa. Esto se lo indicamos con el parámetro `ascending`, que por defecto viene **activado** (`True`):

> [df.sort_values(by=*nombre_columna*, ascending = `True`)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [None]:
# Ordenando por visitas, de menor a mayor

df.sort_values(by='visitas')

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
1,Sara Nogark,Edición de vídeo,29,114175,M
0,SFDX Show,Hardware,30,130855,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
6,s4vitar,Hacking,28,132567,H
2,Nate Gentile,Programación,31,142545,H
5,Edgar Pons,Robótica,29,143620,H
3,Bettatech,Programación,31,149462,H


In [None]:
# Ordenando por edad, de mayor a menor:

df.sort_values(by='edad', ascending = False)

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
5,Edgar Pons,Robótica,29,143620,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
6,s4vitar,Hacking,28,132567,H


También podemos indicar que ordene por dos columnas o más, pasándole una lista con los strings indicando las columnas. La primera que indiquemos tendrá prioridad sobre la siguiente:

In [None]:
# Ordenando primero por visitas, luego por edad:

df.sort_values(by=['visitas', 'edad'], ascending=False)

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
3,Bettatech,Programación,31,149462,H
5,Edgar Pons,Robótica,29,143620,H
2,Nate Gentile,Programación,31,142545,H
6,s4vitar,Hacking,28,132567,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M


## df.nlargest()

De forma más simplificada, `df.nlargest()` nos devolverá valores más altos que le indiquemos. En este caso, también debemos decirle cuántos queremos!

> [df.nlargest(*n_valores*, _columna_)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nlargest.html)


In [None]:
df.nlargest(3, columns='visitas')

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
3,Bettatech,Programación,31,149462,H
5,Edgar Pons,Robótica,29,143620,H
2,Nate Gentile,Programación,31,142545,H


## df.nsmallest()

Este método funciona exactamente igual que el anterior, sólo que mostrará los valores más pequeños:

> [df.nsmallest(*n_valores*, *columna*)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nsmallest.html)

In [None]:
df.nsmallest(3, 'visitas')

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
1,Sara Nogark,Edición de vídeo,29,114175,M
0,SFDX Show,Hardware,30,130855,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H


## df.value_counts()

Este método es de los que más uso en el día a día. Éste nos devolverá una cuenta de cuántas veces se repite un valor en una columna, y por defecto te los ordena de mayor a menor. Súper útil para variables categóricas! (Entraremos en eso un poco más adelante)

> [df.value_counts(*nombre_columna*)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.value_counts.html)

In [None]:
df.value_counts('especialidad')

especialidad
Programación           2
Edición de vídeo       1
Hacking                1
Hardware               1
Robótica               1
Sistemas Operativos    1
dtype: int64

# Funciones Avanzadas

Como explicamos en el capítulo, **Pandas** dispone de unas funciones 'avanzadas' para usos más específicos.

**Recomendamos revisar este capítulo en vídeo las veces que sea necesario!**

## pd.concat()

Esta función sirve para **concatenar** (o _juntar_) dos o más _DataFrames_. Se puede usar de muchas maneras, pero para no complicarlo innecesariamente vamos a usarlo para concatenar dos _DataFrames_ que tengan los mismos nombres en las columnas.

**Observad que esta función no corresponde a un método de un DataFrame, por lo que no usaremos `df`, sinó `pd`, ya que llamamos a una función de la librería**:

> [pd.concat([df1, df2..])](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

In [None]:
df.head() # DataFrame original

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H


In [None]:
# Crearemos una copia de nuestro df y le cambiaremos los valores de la columna 'nombre':

df_nuevo = df.copy()

df_nuevo['nombre'] = ['Batman', 'Spiderman', 'Catwoman', 'Capitan America', 'Thor', 'Iron Man', 'Loki']

df_nuevo.head()

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,Batman,Hardware,30,130855,H
1,Spiderman,Edición de vídeo,29,114175,M
2,Catwoman,Programación,31,142545,H
3,Capitan America,Programación,31,149462,H
4,Thor,Sistemas Operativos,28,132008,H


In [None]:
# Los concatenamos fácilmente!

unido = pd.concat([df, df_nuevo])

unido

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
5,Edgar Pons,Robótica,29,143620,H
6,s4vitar,Hacking,28,132567,H
0,Batman,Hardware,30,130855,H
1,Spiderman,Edición de vídeo,29,114175,M
2,Catwoman,Programación,31,142545,H


Si os fijáis, veréis que los valores de los índices están repetidos. Esto hay que evitarlo a toda costa, por lo que le haremos un `df.reset_index()` para que genere de nuevo estos índices:

In [None]:
unido.reset_index()

Unnamed: 0,index,nombre,especialidad,edad,visitas,sexo
0,0,SFDX Show,Hardware,30,130855,H
1,1,Sara Nogark,Edición de vídeo,29,114175,M
2,2,Nate Gentile,Programación,31,142545,H
3,3,Bettatech,Programación,31,149462,H
4,4,Antonio Sarosi,Sistemas Operativos,28,132008,H
5,5,Edgar Pons,Robótica,29,143620,H
6,6,s4vitar,Hacking,28,132567,H
7,0,Batman,Hardware,30,130855,H
8,1,Spiderman,Edición de vídeo,29,114175,M
9,2,Catwoman,Programación,31,142545,H


Qué ha sucedido!? Nos ha generado otra columna llamada `index`! Esto sucede porque al pasarle un nuevo índice numérico, **Pandas** ha preferido guardar el antiguo por si las moscas. Para que esto no suceda, simplemente activaremos el argumento `drop`:

In [None]:
# En este caso, asignaremos este DataFrame a la variable df, ya que trabajaremos
# con él para los siguientes ejemplos

df = unido.reset_index(drop=True)

df

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H
5,Edgar Pons,Robótica,29,143620,H
6,s4vitar,Hacking,28,132567,H
7,Batman,Hardware,30,130855,H
8,Spiderman,Edición de vídeo,29,114175,M
9,Catwoman,Programación,31,142545,H


## df.where()

Si os acordáis, en el capítulo de **NumPy** analizamos un método con el mismo nombre, que servía para sustituir valores basados en condiciones. En el caso de **Pandas**, este método encuentra en el _DataFrame_ todos los valores que cumplen con la condición que le demos, transformando a `NaN` los que no la cumplen:

> [df.where(condiciones)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.where.html)

Podemos aplicar varios filtros para encontrar los valores que nos interesen:

In [None]:
filtro1 = df['especialidad'] == 'Programación'
filtro2 = df['visitas'] > 145000

In [None]:
df.where(filtro1 & filtro2)

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,,,,,
1,,,,,
2,,,,,
3,Bettatech,Programación,31.0,149462.0,H
4,,,,,
5,,,,,
6,,,,,
7,,,,,
8,,,,,
9,,,,,


## df.groupby()

Esta función es un tanto especial, ya que nos introduce el concepto de los _datos agregados_. Imaginaos por un momento que en nuestro _DataFrame_ queremos contar el número de visitas **por cada una de las especialidades** como Programación, Edición de vídeo, etc. En este caso tendremos que 'agrupar' estas categorías para saber cuanto da la suma de sus visitas. Pues `df.groupby()` nos ayuda con ello:

> [df.groupby(*columna_a_agregar*)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

Si nosotros sólo agregamos estos datos, **Pandas** nos devolverá un objeto tipo `GroupBy`, pero no nos ofrecerá ningún tipo de información:

In [None]:
df.groupby('especialidad')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000260699358B0>

Para que nosotros podamos hacer algún tipo de operación con las columnas agregadas, tenemos que usar algún método para ello, por ejemplo, el de sumar `.sum()`:

In [None]:
df.groupby('especialidad').sum()

Unnamed: 0_level_0,edad,visitas
especialidad,Unnamed: 1_level_1,Unnamed: 2_level_1
Edición de vídeo,58,228350
Hacking,56,265134
Hardware,60,261710
Programación,124,584014
Robótica,58,287240
Sistemas Operativos,56,264016


Ahora nuestra columna `especialidad` es el índice de nuestro DataFrame, y el resto de las columnas _compatibles_ han sido agregadas y se le ha aplicado la operación que hemos indicado. Si necesitamos sólo la suma de las visitas, podemos indicarla con el accesor:

In [None]:
df.groupby('especialidad').sum()['visitas']

especialidad
Edición de vídeo       228350
Hacking                265134
Hardware               261710
Programación           584014
Robótica               287240
Sistemas Operativos    264016
Name: visitas, dtype: int64

Se pueden usar otros métodos, como por ejemplo `.max()` para encontrar el valor más alto.:

In [None]:
df.groupby('sexo').max()

Unnamed: 0_level_0,nombre,especialidad,edad,visitas
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
H,s4vitar,Sistemas Operativos,31,149462
M,Spiderman,Edición de vídeo,29,114175


También se puede agrupar por varias columnas, simplemente pasando una lista con los nombres. En este caso agruparemos por sexo y especialidad, y buscaremos la media de estas agregaciones con `.mean()`:

In [None]:
df.groupby(['sexo', 'especialidad']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,edad,visitas
sexo,especialidad,Unnamed: 2_level_1,Unnamed: 3_level_1
H,Hacking,28.0,132567.0
H,Hardware,30.0,130855.0
H,Programación,31.0,146003.5
H,Robótica,29.0,143620.0
H,Sistemas Operativos,28.0,132008.0
M,Edición de vídeo,29.0,114175.0


## pd.pivot_table()

Esta función de **Pandas** _transforma_ nuestro DataFrame a nuestra conveniencia. Para aprender a usarla, sin embargo, requiere un poco de práctica.

Esta función acepta varios argumentos:
 - El DataFrame que queremos transformar
 - Qué información queremos en el `indice`
 - Qué información queremos en las `columnas`
 - Qué `valores` queremos mostrar en la tabla.

> [pd.pivot_table( _df, index, columns, values_ )](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html)

En este caso también se agregarán valores, como en GroupBy, sólo que en ésta ocasión la operación agregadora por defecto es **la media**, aunque podemos cambiarlo fácilmente.

Para este caso, haremos que nuestro _DataFrame_ contenga como **valores** la media de `visitas` por `sexo` (en el **índice**) y separará estos valores por la `especialidad` (en las **columnas**):

In [None]:
pd.pivot_table(df, index='sexo', columns='especialidad', values='visitas')

especialidad,Edición de vídeo,Hacking,Hardware,Programación,Robótica,Sistemas Operativos
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
H,,132567.0,130855.0,146003.5,143620.0,132008.0
M,114175.0,,,,,


También podemos introducir `strings` como valores en la tabla. De paso, cambiaremos la función agregadora con el parámetro `aggfunc`:

In [None]:
pd.pivot_table(df, index=['sexo'], values=['nombre'], columns=['especialidad'], aggfunc=np.max )

Unnamed: 0_level_0,nombre,nombre,nombre,nombre,nombre,nombre
especialidad,Edición de vídeo,Hacking,Hardware,Programación,Robótica,Sistemas Operativos
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
H,,s4vitar,SFDX Show,Nate Gentile,Iron Man,Thor
M,Spiderman,,,,,


# Fechas

Las fechas en Pandas son muy habituales y muy útiles de usar. Tenemos que saber que cada una de estas fechas son un objeto propio, aunque parezcan strings. Estamos hablando del objeto `DateTime`, que nos permite hacer muchísimas operaciones para tener un control total de los tiempos. Os dejo un [link](https://docs.python.org/3/library/datetime.html) para que conozcáis un poco más a fondo.

## Creando fechas

En Pandas podemos crear o importar estas fechas de muchísimas formas. La más sencilla a nuestro parecer, creando un _rango_ de fechas con una periodicidad en concreto:

> [pd.date_range(_**start**= inicio_fecha, **end**= fecha_final, **freq**= frecuencia_)](https://pandas.pydata.org/docs/reference/api/pandas.date_range.html)

Tenemos que saber que los strings que usaremos para definir estas fechas tienen varias posibilidades válidas para que **Pandas** las acepte. Unos ejemplos pueden ser:
- `1 January 2022`
- `01/01/2022`
- `Wed Jan 01 18:42:50 2022`

Hay muchos formatos válidos, y os los adjunto [aquí](https://datatest.readthedocs.io/en/stable/how-to/date-time-str.html#strftime-codes-for-common-formats)

In [None]:
df.head()

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
0,SFDX Show,Hardware,30,130855,H
1,Sara Nogark,Edición de vídeo,29,114175,M
2,Nate Gentile,Programación,31,142545,H
3,Bettatech,Programación,31,149462,H
4,Antonio Sarosi,Sistemas Operativos,28,132008,H


Pongamos que queremos añadir una 'fecha de entrada' de los profesores, imaginando que cada mes entra uno nuevo. Para ello, tendremos que crear un rango de fechas **con la misma longitud** que nuestro _DataFrame_ no podemos tener más ni menos:

In [None]:
len(df)

14

In [None]:
fechas = pd.date_range(start='1 January 2021', end= '1 February 2022', freq= 'MS')

fechas

DatetimeIndex(['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01',
               '2021-05-01', '2021-06-01', '2021-07-01', '2021-08-01',
               '2021-09-01', '2021-10-01', '2021-11-01', '2021-12-01',
               '2022-01-01', '2022-02-01'],
              dtype='datetime64[ns]', freq='MS')

In [None]:
len(fechas)

14

También, podemos usar el atributo `periods` para definir cuántos elementos queremos, usando la propia longitud de nuestro _DataFrame_ para especificar la cantidad:

In [None]:
fechas = pd.date_range(start='1 January 2021', periods= len(df), freq= 'MS')

fechas

DatetimeIndex(['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01',
               '2021-05-01', '2021-06-01', '2021-07-01', '2021-08-01',
               '2021-09-01', '2021-10-01', '2021-11-01', '2021-12-01',
               '2022-01-01', '2022-02-01'],
              dtype='datetime64[ns]', freq='MS')

In [None]:
len(df)

14

## Asignando a un índice

Una de las utilidades de tener fechas en **Pandas** es que podemos usarlas para filtrar nuestros datos. De hecho, cuando se trabajan con fechas en Data Science se habla de el uso de **Series Temporales**, y es todo un arte bastante amplio.

En nuestro caso, debemos saber que si asignamos las fechas al índice de nuestro DataFrame, podemos usarlas fácilmente para encontrar los períodos que nos interesen. Para ello, simplemente usaremos el método `.set_index()`:

In [None]:
df.set_index(pd.DatetimeIndex(fecha), inplace=True)

Vemos que nuestro objeto `fecha` es el argumento de otra función de **Pandas**, `pd.DatetimeIndex`, que simplemente la usaremos para 'adaptar' estas fechas para que Pandas las interprete bien.

In [None]:
df

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
2021-01-01,SFDX Show,Hardware,30,130855,H
2021-02-01,Sara Nogark,Edición de vídeo,29,114175,M
2021-03-01,Nate Gentile,Programación,31,142545,H
2021-04-01,Bettatech,Programación,31,149462,H
2021-05-01,Antonio Sarosi,Sistemas Operativos,28,132008,H
2021-06-01,Edgar Pons,Robótica,29,143620,H
2021-07-01,s4vitar,Hacking,28,132567,H
2021-08-01,Batman,Hardware,30,130855,H
2021-09-01,Spiderman,Edición de vídeo,29,114175,M
2021-10-01,Catwoman,Programación,31,142545,H


In [None]:
df.index

DatetimeIndex(['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01',
               '2021-05-01', '2021-06-01', '2021-07-01', '2021-08-01',
               '2021-09-01', '2021-10-01', '2021-11-01', '2021-12-01',
               '2022-01-01', '2022-02-01'],
              dtype='datetime64[ns]', freq='MS')

## Formato

Nosotros también podemos cambiar el formato de nuestras fechas de una manera fácil, según el que nos apetezca más. Simplemente tendremos que seleccionar nuestro índice con el atributo `df.index` y reasignarlo, esta vez transformándolo con el método `.strftime()` (de **str**ing **f**ormat **time**):

> [DateTime.strftime(_formato_)](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes)

Este formático está basado en un código universal, que se puede aplicar a varios lenguajes de programación. Lo explicamos en detalle en el vídeo, pero os dejo un [link](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes) para que lo podáis consultar:

In [None]:
formato = '%d/%m/%Y'

In [None]:
df.index = df.index.strftime(formato)

In [None]:
df

Unnamed: 0,nombre,especialidad,edad,visitas,sexo
01/01/2021,SFDX Show,Hardware,30,130855,H
01/02/2021,Sara Nogark,Edición de vídeo,29,114175,M
01/03/2021,Nate Gentile,Programación,31,142545,H
01/04/2021,Bettatech,Programación,31,149462,H
01/05/2021,Antonio Sarosi,Sistemas Operativos,28,132008,H
01/06/2021,Edgar Pons,Robótica,29,143620,H
01/07/2021,s4vitar,Hacking,28,132567,H
01/08/2021,Batman,Hardware,30,130855,H
01/09/2021,Spiderman,Edición de vídeo,29,114175,M
01/10/2021,Catwoman,Programación,31,142545,H


----
Vaya! Ha sido un capítulo extenso. Y no es para menos! **Pandas** es la librería que más usaremos, con diferencia, y la que nos va a dar más alegrías a lo largo del curso.

Este _Notebook_ tiene el propósito de serviros como guía y consulta. Es normal que ahora parezcan muchos conceptos, pero no os preocupéis, con un poco de tiempo se entiende fácil ;)

![](https://www.pintzap.com/img/memes/list/20.jpg)