# `Pandas`

Pandas es una biblioteca de Python ampliamente utilizada para el análisis y manipulación de datos. Proporciona estructuras de datos eficientes y flexibles, así como herramientas para el procesamiento de datos. Con Pandas, puedes importar, limpiar, transformar y analizar datos de manera sencilla y eficiente.

La estructura de datos principal en Pandas es el `DataFrame`, que es una tabla bidimensional que puede contener datos heterogéneos. Puedes pensar en un *DataFrame* como una hoja de cálculo o una base de datos donde cada columna representa una variable y cada fila representa una observación.

Pandas ofrece numerosas funcionalidades para realizar tareas comunes de análisis de datos, como la manipulación de columnas y filas, filtrado de datos, agregación, cálculos estadísticos, fusión y concatenación de DataFrames, entre otros.

## Características

Las principales características de esta librería son:

* Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.

* Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.

* Permite acceder a los datos mediante índices o nombres para filas y columnas.

* Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.

* Permite trabajar con series temporales.

* Realiza todas estas operaciones de manera muy eficiente.

## Tipos de datos de Pandas


Pandas dispone de tres estructuras de datos diferentes:

* **Series:** Estructura de una dimensión.
  
* **DataFrame:** Estructura de dos dimensiones (tablas).
  
* **Panel:** Estructura de tres dimensiones (cubos).

Estas estructuras se construyen a partir de arrays de la librería NumPy, añadiendo nuevas funcionalidades.

## Series

Son estructuras similares a los arrays de una dimensión. Son **homogéneas**, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es **inmutable**, es decir, no se puede cambiar, aunque si su contenido.

Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

In [None]:
import numpy as np
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8], name = 'Mi serie')
print(s)

s1 = s.copy()
s1[1]=10
print(s)

**Observación:** `np.nan` se refiere a la representación de un valor `NaN` (`Not a Number`) en la biblioteca NumPy. NaN es un valor especial utilizado para indicar datos faltantes o no válidos en arreglos numéricos.

NaN se utiliza comúnmente en cálculos y operaciones donde puede haber valores faltantes o datos no válidos. En lugar de simplemente dejar un espacio en blanco o usar un valor predeterminado para indicar la ausencia de datos, NaN proporciona una forma estándar de representar estos valores faltantes.

La clase Series en Pandas acepta varios argumentos adicionales aparte de los datos y el índice. Aquí tienes una lista de algunos argumentos comunes que se pueden utilizar al crear una Serie o al llamar a métodos de una Serie:

<center>
<table>
  <tr>
    <th>Argumento</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
  <tr>
    <td>name</td>
    <td>Asigna un nombre a la Serie.</td>
    <td>pd.Series(data, name="Ventas")</td>
  </tr>
  <tr>
    <td>dtype</td>
    <td>Especifica el tipo de datos de la Serie.</td>
    <td>pd.Series(data, dtype=np.float64)</td>
  </tr>
  <tr>
    <td>copy</td>
    <td>Realiza una copia de los datos.</td>
    <td>serie.copy()</td>
  </tr>
  <!-- <tr>
    <td>fastpath</td>
    <td>Habilita el código de camino rápido para la construcción de la Serie.</td>
    <td>pd.Series(data, fastpath=True)</td>
  </tr>
  <tr>
    <td>verify_integrity</td>
    <td>Verifica la integridad de los datos al crear la Serie.</td>
    <td>pd.Series(data, verify_integrity=True)</td>
  </tr> -->
</table>

</center>

## Creación de una serie a partir de una lista

`Series(data=lista, index=indices, dtype=tipo)`: Devuelve un objeto de tipo Series con los datos de la lista lista, las filas especificados en la lista indices y el tipo de datos indicado en tipo. Si no se pasa la lista de índices se utilizan como índices los enteros del 0 al , done  es el tamaño de la serie. Si no se pasa el tipo de dato se infiere.

In [None]:
import pandas as pd
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

In [None]:
import pandas as pd

lista = [10, 20, 30, 40, 50]

serie = pd.Series(lista)

etiquetas = ['a', 'b', 'c', 'd', 'e']

serie = pd.Series(lista, index=etiquetas)
print(serie)

## Creación de una serie a partir de un diccionario

`Series(data=diccionario, index=indices)`: Devuelve un objeto de tipo Series con los valores del diccionario diccionario y las filas especificados en la lista indices. Si no se pasa la lista de índices se utilizan como índices las claves del diccionario.

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s)

In [None]:
s.size
print(s.index)
s.dtype

## Atributos de una serie

Existen varias propiedades o métodos para ver las características de una serie.

* `s.size` : Devuelve el número de elementos de la serie s.

* `s.index` : Devuelve una lista con los nombres de las filas del DataFrame s.

* `s.dtype` : Devuelve el tipo de datos de los elementos de la serie s.

## Acceso a los elementos de una serie

### Acceso por posición


Se realiza de forma similar a como se accede a los elementos de un array.

* `s[i]` : Devuelve el elemento que ocupa la posición i+1 en la serie s.
s[posiciones]: Devuelve otra serie con los elementos que ocupan las posiciones de la lista posiciones.

### Acceso por índice


* `s[nombre]` : Devuelve el elemento con el nombre nombre en el índice.
* s[nombres] : Devuelve otra serie con los elementos correspondientes a los nombres indicadas en la lista nombres en el índice.


In [None]:
s[['Matemáticas','Programación']]

<center>
<table>
  <tr>
    <th>Atributo</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
  <tr>
    <td>values</td>
    <td>Devuelve los valores de la serie como un array NumPy.</td>
    <td><code>serie.values</code></td>
  </tr>
  <tr>
    <td>index</td>
    <td>Devuelve los índices de la serie.</td>
    <td><code>serie.index</code></td>
  </tr>
  <tr>
    <td>name</td>
    <td>Devuelve el nombre de la serie.</td>
    <td><code>serie.name</code></td>
  </tr>
  <tr>
    <td>dtype</td>
    <td>Devuelve el tipo de datos de la serie.</td>
    <td><code>serie.dtype</code></td>
  </tr>
  <tr>
    <td>size</td>
    <td>Devuelve la cantidad de elementos en la serie.</td>
    <td><code>serie.size</code></td>
  </tr>
  <tr>
    <td>shape</td>
    <td>Devuelve una tupla que indica la forma de la serie (número de filas, número de columnas).</td>
    <td><code>serie.shape</code></td>
  </tr>
  <tr>
    <td>ndim</td>
    <td>Devuelve la cantidad de dimensiones de la serie.</td>
    <td><code>serie.ndim</code></td>
  </tr>
  <tr>
    <td>empty</td>
    <td>Devuelve un valor booleano que indica si la serie está vacía o no.</td>
    <td><code>serie.empty</code></td>
  </tr>
  <tr>
    <td>head()</td>
    <td>Devuelve las primeras n filas de la serie.</td>
    <td><code>serie.head(5)</code></td>
  </tr>
  <tr>
    <td>tail()</td>
    <td>Devuelve las últimas n filas de la serie.</td>
    <td><code>serie.tail(5)</code></td>
  </tr>
  <tr>
    <td>describe()</td>
    <td>Calcula estadísticas descriptivas para la serie (conteo, media, desviación estándar, mínimo, percentiles, máximo, entre otros).</td>
    <td><code>serie.describe()</code></td>
  </tr>
  <tr>
    <td>min()</td>
    <td>Devuelve el valor mínimo de la serie.</td>
    <td><code>serie.min()</code></td>
  </tr>
  <tr>
    <td>max()</td>
    <td>Devuelve el valor máximo de la serie.</td>
    <td><code>serie.max()</code></td>
  </tr>
  <tr>
    <td>sum()</td>
    <td>Calcula la suma de los valores en la serie.</td>
    <td><code>serie.sum()</code></td>
  </tr>
  <tr>
    <td>mean()</td>
    <td>Calcula la media de los valores en la serie.</td>
    <td><code>serie.mean()</code></td>
  </tr>
  <tr>
    <td>median()</td>
    <td>Calcula la mediana de los valores en la serie.</td>
    <td><code>serie.median()</code></td>
  </tr>
  <tr>
    <td>std()</td>
    <td>Calcula la desviación estándar de los valores en la serie.</td>
    <td><code>serie.std()</code></td>
  </tr>
  <tr>
    <td>var()</td>
    <td>Calcula la varianza de los valores en la serie.</td>
    <td><code>serie.var()</code></td>
  </tr>
  <tr>
    <td>count()</td>
    <td>Devuelve la cantidad de valores no nulos en la serie.</td>
    <td><code>serie.count()</code></td>
  </tr>
  <tr>
    <td>idxmin()</td>
    <td>Devuelve el índice del valor mínimo en la serie.</td>
    <td><code>serie.idxmin()</code></td>
  </tr>
  <tr>
    <td>idxmax()</td>
    <td>Devuelve el índice del valor máximo en la serie.</td>
    <td><code>serie.idxmax()</code></td>
  </tr>
  <tr>
    <td>all()</td>
    <td>Devuelve True si todos los elementos de la serie son verdaderos.</td>
    <td><code>serie.all()</code></td>
  </tr>
  <tr>
    <td>any()</td>
    <td>Devuelve True si al menos un elemento de la serie es verdadero.</td>
    <td><code>serie.any()</code></td>
  </tr>
  <!-- Agrega más filas según sea necesario -->
</table>
</center>

In [1]:
import pandas as pd

precios_viviendas = [250000, 270000, 290000, 320000, 320000, 330000, 340000, 250000]
years = ['2018 Q1', '2018 Q2', '2018 Q3', '2018 Q4', '2019 Q1', '2019 Q2', '2019 Q3', '2019 Q4']

serie_precios = pd.Series(precios_viviendas, index=years)

serie_precios.name = "Precio promedio de viviendas por trimestre"

serie_precios
#print(serie_precios)

2018 Q1    250000
2018 Q2    270000
2018 Q3    290000
2018 Q4    320000
2019 Q1    320000
2019 Q2    330000
2019 Q3    340000
2019 Q4    250000
Name: Precio promedio de viviendas por trimestre, dtype: int64

In [4]:
#serie_precios.head(3)
serie_precios.tail(2)

2019 Q3    340000
2019 Q4    250000
Name: Precio promedio de viviendas por trimestre, dtype: int64

In [5]:
print(serie_precios.describe())


count         8.000000
mean     296250.000000
std       36228.441865
min      250000.000000
25%      265000.000000
50%      305000.000000
75%      322500.000000
max      340000.000000
Name: Precio promedio de viviendas por trimestre, dtype: float64


In [None]:
print(serie_precios.value_counts())
print(serie_precios.unique())

## Operaciones a una `serie` 

Los operadores binarios (`+`, `*`, `/`, etc.) pueden utilizarse con una serie, y devuelven otra serie con el resultado de aplicar la operación a cada elemento de la serie.

In [8]:
import pandas as pd
s = pd.Series([1, 2, 3, 4])
#s
s * 2

0    2
1    4
2    6
3    8
dtype: int64

In [11]:
s = pd.Series([1, 2, 3, 4])
t = s % 2
t

0    1
1    0
2    1
3    0
dtype: int64

In [None]:
s = pd.Series(['a', 'b', 'c'])
s * 5

## Ordenar una serie

Para ordenar una serie se utilizan los siguientes métodos:

<center> <code>s.sort_values(ascending=booleano)</code></center>

Devuelve la serie que resulta de ordenar los valores la serie `s`. Si argumento del parámetro ***ascending*** es `True` el orden es creciente y si es `False` decreciente.

<center> <code>df.sort_index(ascending=booleano)</code></center> 

Devuelve la serie que resulta de ordenar el índice de la serie `s`. Si el argumento del parámetro ***ascending*** es `True` el orden es creciente y si es `False` decreciente.

In [14]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 9.5, 'Programación': 8.5})
print(s.sort_values())

Matemáticas     6.0
Programación    8.5
Economía        9.5
dtype: float64


In [16]:
print(s.sort_index( ascending = False ))
#print(s.sort_index(ascending = False))

Programación    8.5
Matemáticas     6.0
Economía        9.5
dtype: float64


## Eliminar los dados desconocidos en una serie 

Los **datos desconocidos** se representan en `Pandas` por `NaN` y los nulos por `None`. Tanto unos como otros suelen ser un problema a la hora de realizar algún análisis de datos, por lo que es habitual eliminarlos. Para eliminarlos de una serie se utiliza el siguiente método:

<center><code>s.dropna()</code></center> 

`s.dropna()` elimina los datos desconocidos o nulos de la serie `s`.

In [17]:
import pandas as pd
import numpy as np
s = pd.Series(['a', 'b', None, 'c', np.NaN,  'd'])

In [18]:
s.dropna()

0    a
1    b
3    c
5    d
dtype: object

## Función `any`

La función `any()` en Pandas se utiliza para verificar si al menos un elemento de una serie es verdadero. Devuelve `True` si al menos un elemento es verdadero y `False` si todos los elementos son falsos.

In [19]:
import pandas as pd
import numpy as np

# Crear una Serie con valores incluyendo NaN
serie = pd.Series([1, 2, np.nan, 4, 5])

# Verificar si al menos un valor faltante está presente en la Serie
resultado = serie.isna().any()
print(resultado)
# Salida: True


True


In [20]:
serie.isna()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [24]:
import pandas as pd

serie = pd.Series([10, 20, 30, 40, 50])
print(serie > 30)
resultado = (serie > 30).any()
print(resultado)

0    False
1    False
2    False
3     True
4     True
dtype: bool
True


In [23]:
print((serie > 30 ).sum())

2


## Aplicar funciones a una serie

También es posible aplicar una función a cada elemento de la serie mediante el siguiente método:

<center><code>s.apply(f)</code></center>

Devuelve una serie con el resultado de aplicar la función `f` a cada uno de los elementos de la serie `s`.


In [25]:
import pandas as pd
import numpy as np
from math import log

s = pd.Series([np.pi, 2*np.pi, 3*np.pi, 4*np.pi])
s.apply(np.sin)

0    1.224647e-16
1   -2.449294e-16
2    3.673940e-16
3   -4.898587e-16
dtype: float64

In [26]:
s = pd.Series(['a', 'b', 'c'])
s.apply(str.upper)

0    A
1    B
2    C
dtype: object

## Filtrar una serie

Para filtrar una serie y quedarse con los valores que cumplen una determinada condición se utiliza el siguiente método:

<center><code>s[condicion]</code></center> 

Devuelve una serie con los elementos de la serie `s` que se corresponden con el valor `True` de la lista booleana `condicion`. `condicion` debe ser una lista de valores booleanos de la misma longitud que la serie.

In [27]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s[s > 5])

Matemáticas     6.0
Programación    8.5
dtype: float64


# Dataframe

Un objeto del tipo `DataFrame` define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo `Series`, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.

Un `DataFrame` contiene dos índices, uno para las *filas* y otro para las *columnas*, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.

## Creación de un DataFrame

In [None]:
import pandas as pd

pd.Dataframe({'A': [1, 2, 3]})

### Creación de un DataFrame a partir de un diccionario de listas

Para crear un `DataFrame` a partir de un diccionario cuyas claves son los nombres de las columnas y los valores son listas con los datos de las columnas se utiliza el método:

`pd.Dataframe(data=diccionario, index=filas, columns=columnas, dtype=tipos)`

* Devuelve un objeto del tipo DataFrame cuyas columnas son las listas contenidas en los valores del diccionario `diccionario`,
  
* Los nombres de filas son los indicados en la lista filas,

* Los nombres de columnas son los indicados en la lista columnas y los tipos indicados en la lista tipos.

* La lista filas tiene que tener el mismo tamaño que las listas del diccionario, mientras que las listas columnas y tipos tienen que tener el mismo tamaño que el diccionario. 
  
* Si no se pasa la lista de filas se utilizan como nombres los enteros empezando en 0. Si no se pasa la lista de columnas se utilizan como nombres las claves del diccionario. Si no se pasa la lista de tipos, se infiere.

**Observación:** Los valores asociados a las claves del diccionario deben ser listas del mismo tamaño.

In [None]:
import pandas as pd
datos = {'nombre':['María', 'Luis', 'Carmen', 'Antonio'],
         'edad':[18, 22, 20, 21], 
         'grado':['Economía', 'Medicina', 'Arquitectura', 'Economía'],
         'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
         }
df = pd.Dataframe(datos)
df
#print(df)

### Creación de un DataFrame a partir de una listas de listas

Para crear un `DataFrame` a **partir de una lista de listas** con los datos de las columnas se utiliza el siguiente método:

`pd.Dataframe(data=listas, index=filas, columns=columnas, dtype=tipos)`

* Devuelve un objeto del tipo `DataFrame` cuyas columnas son los valores de las listas de la lista listas, 

* Los nombres de filas indicados en la lista filas, los nombres de columnas indicados en la lista columnas y los tipos indicados en la lista tipos. 
  
* La lista filas, tiene que tener el mismo tamaño que la lista listas mientras que las listas columnas y tipos tienen que tener el mismo tamaño que las listas anidadas en listas. 
  
* Si no se pasa la lista de filas o de columnas se utilizan enteros empezando en 0. Si no se pasa la lista de tipos, se infiere.

**Observación:** Si las listas anidadas en listas no tienen el mismo tamaño, las listas menores se rellenan con valores `NaN`.

In [None]:
import pandas as pd
df = pd.Dataframe([['María', 18], ['Luis', 22], ['Carmen', 20]], columns=['Nombre', 'Edad'])
print(df)


### Creación de un DataFrame a partir de una lista de diccionarios

Para crear un DataFrame a partir de una lista de diccionarios con los datos de las filas, se utiliza el siguiente método:

`pd.Dataframe(data=diccionarios, index=filas, columns=columnas, dtype=tipos)`

* Devuelve un objeto del tipo DataFrame cuyas filas contienen los valores de los diccionarios de la lista diccionarios,

* Los nombres de filas indicados en la lista filas, los nombres de columnas indicados en la lista columnas y los tipos indicados en la lista tipos. 

* La lista filas tiene que tener el mismo tamaño que la lista lista. Si no se pasa la lista de filas se utilizan enteros empezando en 0.
  
* Si no se pasa la lista de columnas se utilizan las claves de los diccionarios.

**Observación:** Si no se pasa la lista de tipos, se infiere. Si los diccionarios no tienen las mismas claves, las claves que no aparecen en el diccionario se rellenan con valores `NaN`.

In [None]:
import pandas as pd
df = pd.Dataframe([{'Nombre':'María', 'Edad':18}, {'Nombre':'Luis', 'Edad':22}, {'Nombre':'Carmen'}])
print(df)

### Creación de un DataFrame a partir de un array

Para crear un DataFrame a partir de un `array` de NumPy se utiliza el siguiente método:

`pd.Dataframe(data=array, index=filas, columns=columnas, dtype=tipo)`
 
* Devuelde un objeto del tipo `DataFrame` cuyas filas y columnas son las del array array,

* Los nombres de filas indicados en la lista filas, los nombres de columnas indicados en la lista columnas y el tipo indicado en tipo.
  
* La lista filas tiene que tener el mismo tamaño que el número de filas del array y la lista columnas el mismo tamaño que el número de columnas del array. 
  
* Si no se pasa la lista de filas se utilizan enteros empezando en 0. Si no se pasa la lista de columnas se utilizan las claves de los diccionarios. Si no se pasa la lista de tipos, se infiere.

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(4, 3), columns=['a', 'b', 'c'])
print(df)

### Creación de un DataFrame a partir de un fichero CSV o Excel

Dependiendo del tipo de fichero, existen distintas funciones para importar un DataFrame desde un fichero.

`read_csv(fichero.csv, sep=separador, header=n, index_col=m, na_values=no-validos, decimal=separador-decimal)` 

* Devuelve un objeto del tipo DataFrame con los datos del fichero CSV fichero.csv 

* Se usan como separador de los datos la cadena separador.
 
* Como nombres de columnas se utiliza los valores de la fila n y como nombres de filas los valores de la columna m.
  
*  Si no se indica m se utilizan como nombres de filas los enteros empezando en 0.
  
* Los valores incluídos en la lista no-validos se convierten en `NaN`.
  
* Para los datos numéricos se utiliza como separador de decimales el carácter indicado en `separador-decimal`.

`read_excel(fichero.xlsx, sheet_name=hoja, header=n, index_col=m, na_values=no-validos, decimal=separador-decimal)`

* Devuelve un objeto del tipo `DataFrame` con los datos de la hoja de cálculo hoja del fichero Excel `fichero.xlsx`. 
  
* Como nombres de columnas se utiliza los valores de la fila n y como nombres de filas los valores de la columna m.
  
* Si no se indica m se utilizan como nombres de filas los enteros empezando en 0. Los valores incluídos en la lista no-validos se convierten en NaN. Para los datos numéricos se utiliza como separador de decimales el carácter indicado en separador-decimal.

In [29]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')

df



Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [None]:
print(df.head())

In [None]:
df.info()

In [None]:
df.shape

In [None]:
df.size

In [None]:
df.columns

In [None]:
df.index

## Atributos de un `Dataframe`

<center>
<table>
  <tr>
    <th>Atributo</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
  <tr>
    <td>shape</td>
    <td>Devuelve una tupla con el número de filas y columnas del DataFrame</td>
    <td>df.shape</td>
  </tr>
  <tr>
    <td>columns</td>
    <td>Devuelve una lista con los nombres de las columnas del DataFrame</td>
    <td>df.columns</td>
  </tr>
  <tr>
    <td>index</td>
    <td>Devuelve el índice (etiquetas de fila) del DataFrame</td>
    <td>df.index</td>
  </tr>
  <tr>
    <td>values</td>
    <td>Devuelve una matriz NumPy que representa los datos del DataFrame</td>
    <td>df.values</td>
  </tr>
  <tr>
    <td>dtypes</td>
    <td>Devuelve los tipos de datos de cada columna del DataFrame</td>
    <td>df.dtypes</td>
  </tr>
  <tr>
    <td>info()</td>
    <td>Proporciona información sobre el DataFrame, incluyendo el número total de entradas no nulas por columna y el tipo de datos de cada columna</td>
    <td>df.info()</td>
  </tr>
  <tr>
    <td>describe()</td>
    <td>Calcula estadísticas descriptivas para las columnas numéricas del DataFrame</td>
    <td>df.describe()</td>
  </tr>
  <tr>
    <td>head(n)</td>
    <td>Devuelve las primeras n filas del DataFrame</td>
    <td>df.head()</td>
  </tr>
  <tr>
    <td>tail(n)</td>
    <td>Devuelve las últimas n filas del DataFrame</td>
    <td>df.tail()</td>
  </tr>
  <tr>
    <td>T</td>
    <td>Devuelve una transposición del DataFrame, intercambiando filas y columnas</td>
    <td>df.T</td>
  </tr>
  <tr>
    <td>empty</td>
    <td>Devuelve un valor booleano que indica si el DataFrame está vacío</td>
    <td>df.empty</td>
  </tr>
  <tr>
    <td>ndim</td>
    <td>Devuelve el número de dimensiones del DataFrame</td>
    <td>df.ndim</td>
  </tr>
  <tr>
    <td>size</td>
    <td>Devuelve el número total de elementos en el DataFrame</td>
    <td>df.size</td>
  </tr>
  <tr>
    <td>style</td>
    <td>Permite aplicar estilos a un DataFrame para resaltar visualmente los datos</td>
    <td>df.style</td>
  </tr>
  <tr>
    <td>nunique()</td>
    <td>Devuelve el número de valores únicos en cada columna</td>
    <td>df['columna'].nunique()</td>
  </tr>
  <tr>
    <td>unique()</td>
    <td>Devuelve una matriz con los valores únicos en una columna específica</td>
    <td>df['columna'].unique()</td>
  </tr>
  <tr>
    <td>duplicated()</td>
    <td>Devuelve una serie booleana que indica si cada fila es duplicada o no</td>
    <td>df.duplicated()</td>
  </tr>
  <tr>
    <td>drop_duplicates()</td>
    <td>Elimina las filas duplicadas del DataFrame y devuelve el DataFrame resultante</td>
    <td>df.drop_duplicates()</td>
  </tr>
  <tr>
    <td>corr()</td>
    <td>Calcula la correlación entre columnas numéricas en el DataFrame</td>
    <td>df.corr()</td>
  </tr>
  <tr>
    <td>cov()</td>
    <td>Calcula la covarianza entre columnas numéricas en el DataFrame</td>
    <td>df.cov()</td>
  </tr>
  <tr>
    <td>min()</td>
    <td>Devuelve el valor mínimo de cada columna numérica</td>
    <td>df.min()</td>
  </tr>
  <tr>
    <td>max()</td>
    <td>Devuelve el valor máximo de cada columna numérica</td>
    <td>df.max()</td>
  </tr>
  <tr>
    <td>sum()</td>
    <td>Calcula la suma de los valores en cada columna numérica</td>
    <td>df.sum()</td>
  </tr>
  <tr>
    <td>mean()</td>
    <td>Calcula la media de los valores en cada columna numérica</td>
    <td>df.mean()</td>
  </tr>
  <tr>
    <td>median()</td>
    <td>Calcula la mediana de los valores en cada columna numérica</td>
    <td>df.median()</td>
  </tr>
  <tr>
    <td>std()</td>
    <td>Calcula la desviación estándar de los valores en cada columna numérica</td>
    <td>df.std()</td>
  </tr>
  <tr>
    <td>var()</td>
    <td>Calcula la varianza de los valores en cada columna numérica</td>
    <td>df.var()</td>
  </tr>
  <tr>
    <td>count()</td>
    <td>Calcula el número de valores no nulos en cada columna</td>
    <td>df.count()</td>
  </tr>
  <tr>
    <td>isnull()</td>
    <td>Devuelve una matriz booleana que indica qué valores son nulos</td>
    <td>df.isnull()</td>
  </tr>
  <tr>
    <td>notnull()</td>
    <td>Devuelve una matriz booleana que indica qué valores no son nulos</td>
    <td>df.notnull()</td>
  </tr>
  <tr>
    <td>astype()</td>
    <td>Convierte el tipo de datos de una o varias columnas en un tipo de datos específico</td>
    <td>df['columna'].astype('tipo')</td>
  </tr>
  <tr>
    <td>fillna()</td>
    <td>Rellena los valores faltantes (NaN) en el DataFrame con un valor específico</td>
    <td>df.fillna(valor)</td>
  </tr>
  <tr>
    <td>dropna()</td>
    <td>Elimina las filas con valores faltantes (NaN) del DataFrame y devuelve el DataFrame resultante</td>
    <td>df.dropna()</td>
  </tr>
</table>

</center>

## Renombrar los nombres de las filas y columnas

Para cambiar el nombre de las filas y las columnas de un DataFrame se utiliza el siguiente método:

<center><code>df.rename(columns=columnas, index=filas)</code></center>

Devuelve el DataFrame que resulta de renombrar las columnas indicadas en las claves del diccionario columnas con sus valores y las filas indicadas en las claves del diccionario filas con sus valores en el DataFrame df.

In [5]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [13]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
nuevodf =  df.rename(columns={'nombre':'nombre y apellidos', 'altura':'estatura'}, index={0:1000, 1:1001, 2:1002})
print(nuevodf)


                   nombre y apellidos  edad sexo   peso  estatura  colesterol
1000     José Luis Martínez Izquierdo    18    H   85.0      1.79       182.0
1001                   Rosa Díaz Díaz    32    M   65.0      1.73       232.0
1002            Javier García Sánchez    24    H    NaN      1.81       191.0
3                 Carmen López Pinzón    35    M   65.0      1.70       200.0
4                Marisa López Collado    46    M   51.0      1.58       148.0
5                   Antonio Ruiz Cruz    68    H   66.0      1.74       249.0
6             Antonio Fernández Ocaña    51    H   62.0      1.72       276.0
7               Pilar Martín González    22    M   60.0      1.66         NaN
8                Pedro Gálvez Tenorio    35    H   90.0      1.94       241.0
9             Santiago Reillo Manzano    46    H   75.0      1.85       280.0
10              Macarena Álvarez Luna    53    M   55.0      1.62       262.0
11         José María de la Guía Sanz    58    H   78.0      1.8

## Cambiar el índice de un DataFrame

Aunque el índice de un DataFrame suele fijarse en la creación del mismo, en ocasiones puede ser necesario cambiar el índice una vez creado el DataFrame. Para ello se utiliza el siguiente método:

<center><code>df.set_index(keys = columnas, verify_integrity = bool, drop=True, inplace=False)</code></center> 

* Devuelve el `DataFrame` que resulta de eliminar las columnas de la lista columnas y convertirlas en el nuevo índice. 
  
* El parámetro `verify_integrity` recibe un booleano (`False` por defecto) y realiza una comprobación para evitar duplicados en la clave cuando recibe `True`.

* `drop`: Es un valor booleano que indica si las columnas seleccionadas deben eliminarse del DataFrame. Si se establece en `True`, las columnas se eliminarán; si se establece en `False`, las columnas seleccionadas permanecerán en el DataFrame.

* `inplace`: Es un valor booleano que indica si se debe modificar el DataFrame original. Si se establece en `True`, el DataFrame original se modificará y no se devolverá un nuevo DataFrame; si se establece en `False`, se devolverá un nuevo DataFrame con el índice modificado y el DataFrame original no se verá afectado.


In [15]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [16]:
print(df.set_index("nombre").head())
df.set_index("nombre").head()

                              edad sexo  peso  altura  colesterol
nombre                                                           
José Luis Martínez Izquierdo    18    H  85.0    1.79       182.0
Rosa Díaz Díaz                  32    M  65.0    1.73       232.0
Javier García Sánchez           24    H   NaN    1.81       191.0
Carmen López Pinzón             35    M  65.0    1.70       200.0
Marisa López Collado            46    M  51.0    1.58       148.0


Unnamed: 0_level_0,edad,sexo,peso,altura,colesterol
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
Rosa Díaz Díaz,32,M,65.0,1.73,232.0
Javier García Sánchez,24,H,,1.81,191.0
Carmen López Pinzón,35,M,65.0,1.7,200.0
Marisa López Collado,46,M,51.0,1.58,148.0


## Reindexar un DataFrame

Para reordenar los índices de las filas y las columnas de un `DataFrame`, así como añadir o eliminar índices, se utiliza el siguiente método:

<center><code>df.reindex(index=filas, columns=columnas, fill_value=relleno)</code></center>

* Devuelve el `DataFrame` que resulta de tomar del DataFrame `df` las filas con nombres en la lista `filas` y las columnas con nombres en la lista `columnas`. 

* `fill_value`: Especifica el valor para rellenar los elementos faltantes en el DataFrame después de la reindexación. Si alguno de los nombres indicados en filas o columnas no existía en el DataFrame `df`, se crean filan o columnas nuevas rellenas con el valor `relleno`.

In [17]:
print(df.reindex(index=[4, 3, 1], columns=['nombre', 'tensión', 'colesterol']))

                 nombre  tensión  colesterol
4  Marisa López Collado      NaN       148.0
3   Carmen López Pinzón      NaN       200.0
1        Rosa Díaz Díaz      NaN       232.0
