# `Pandas`

Pandas es una biblioteca de Python ampliamente utilizada para el análisis y manipulación de datos. Proporciona estructuras de datos eficientes y flexibles, así como herramientas para el procesamiento de datos. Con Pandas, puedes importar, limpiar, transformar y analizar datos de manera sencilla y eficiente.

La estructura de datos principal en Pandas es el `DataFrame`, que es una tabla bidimensional que puede contener datos heterogéneos. Puedes pensar en un *DataFrame* como una hoja de cálculo o una base de datos donde cada columna representa una variable y cada fila representa una observación.

Pandas ofrece numerosas funcionalidades para realizar tareas comunes de análisis de datos, como la manipulación de columnas y filas, filtrado de datos, agregación, cálculos estadísticos, fusión y concatenación de DataFrames, entre otros.

## Características

Las principales características de esta librería son:

* Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.

* Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.

* Permite acceder a los datos mediante índices o nombres para filas y columnas.

* Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.

* Permite trabajar con series temporales.

* Realiza todas estas operaciones de manera muy eficiente.

## Tipos de datos de Pandas


Pandas dispone de tres estructuras de datos diferentes:

* **Series:** Estructura de una dimensión.
  
* **DataFrame:** Estructura de dos dimensiones (tablas).
  
* **Panel:** Estructura de tres dimensiones (cubos).

Estas estructuras se construyen a partir de arrays de la librería NumPy, añadiendo nuevas funcionalidades.

## Series

Son estructuras similares a los arrays de una dimensión. Son **homogéneas**, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es **inmutable**, es decir, no se puede cambiar, aunque si su contenido.

Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

In [None]:
import numpy as np
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8], name = 'Mi serie')
print(s)

s1 = s.copy()
s1[1]=10
print(s)

**Observación:** `np.nan` se refiere a la representación de un valor `NaN` (`Not a Number`) en la biblioteca NumPy. `NaN` es un valor especial utilizado para indicar datos faltantes o no válidos en arreglos numéricos.

`NaN` se utiliza comúnmente en cálculos y operaciones donde puede haber valores faltantes o datos no válidos. En lugar de simplemente dejar un espacio en blanco o usar un valor predeterminado para indicar la ausencia de datos, `NaN` proporciona una forma estándar de representar estos valores faltantes.

La clase `Series` en Pandas acepta varios argumentos adicionales aparte de los datos y el índice. Aquí tienes una lista de algunos argumentos comunes que se pueden utilizar al crear una Serie o al llamar a métodos de una Serie:

<center>
<table>
  <tr>
    <th>Argumento</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
  <tr>
    <td>name</td>
    <td>Asigna un nombre a la Serie.</td>
    <td>pd.Series(data, name="Ventas")</td>
  </tr>
  <tr>
    <td>dtype</td>
    <td>Especifica el tipo de datos de la Serie.</td>
    <td>pd.Series(data, dtype=np.float64)</td>
  </tr>
  <tr>
    <td>copy</td>
    <td>Realiza una copia de los datos.</td>
    <td>serie.copy()</td>
  </tr>
  <!-- <tr>
    <td>fastpath</td>
    <td>Habilita el código de camino rápido para la construcción de la Serie.</td>
    <td>pd.Series(data, fastpath=True)</td>
  </tr>
  <tr>
    <td>verify_integrity</td>
    <td>Verifica la integridad de los datos al crear la Serie.</td>
    <td>pd.Series(data, verify_integrity=True)</td>
  </tr> -->
</table>

</center>

## Creación de una serie a partir de una lista

`Series(data=lista, index=indices, dtype=tipo)`: Devuelve un objeto de tipo Series con los datos de la lista `lista`, las filas especificados en la lista indices y el tipo de datos indicado en tipo. Si no se pasa la lista de índices se utilizan como índices los enteros del $0$ al $n-1$, donde $n$ es el tamaño de la serie. Si no se pasa el tipo de dato se infiere.

In [None]:
import pandas as pd
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

In [None]:
import pandas as pd

lista = [10, 20, 30, 40, 50]

serie = pd.Series(lista)

etiquetas = ['a', 'b', 'c', 'd', 'e']

serie = pd.Series(lista, index=etiquetas)
print(serie)

## Creación de una serie a partir de un diccionario

`Series(data=diccionario, index=indices)`: Devuelve un objeto de tipo Series con los valores del diccionario diccionario y las filas especificados en la lista indices. Si no se pasa la lista de índices se utilizan como índices las claves del diccionario.

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s)

In [None]:
s

## Atributos de una serie

Existen varias propiedades o métodos para ver las características de una serie.

* `s.size` : Devuelve el número de elementos de la serie s.

* `s.index` : Devuelve una lista con los nombres de las filas del DataFrame s.

* `s.dtype` : Devuelve el tipo de datos de los elementos de la serie s.

In [None]:
s.size
print(s.index)
s.dtype

In [None]:
s.info()

## Acceso a los elementos de una serie

### Acceso por posición


Se realiza de forma similar a como se accede a los elementos de un array.

* `s[i]` : Devuelve el elemento que ocupa la posición i+1 en la serie s.
s[posiciones]: Devuelve otra serie con los elementos que ocupan las posiciones de la lista posiciones.

### Acceso por índice


* `s[nombre]` : Devuelve el elemento con el nombre nombre en el índice.
  
* s[nombres] : Devuelve otra serie con los elementos correspondientes a los nombres indicadas en la lista nombres en el índice.


In [None]:
s[['Matemáticas','Programación']]

<center>
<table>
  <tr>
    <th>Atributo</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
  <tr>
    <td>values</td>
    <td>Devuelve los valores de la serie como un array NumPy.</td>
    <td><code>serie.values</code></td>
  </tr>
  <tr>
    <td>index</td>
    <td>Devuelve los índices de la serie.</td>
    <td><code>serie.index</code></td>
  </tr>
  <tr>
    <td>name</td>
    <td>Devuelve el nombre de la serie.</td>
    <td><code>serie.name</code></td>
  </tr>
  <tr>
    <td>dtype</td>
    <td>Devuelve el tipo de datos de la serie.</td>
    <td><code>serie.dtype</code></td>
  </tr>
  <tr>
    <td>size</td>
    <td>Devuelve la cantidad de elementos en la serie.</td>
    <td><code>serie.size</code></td>
  </tr>
  <tr>
    <td>shape</td>
    <td>Devuelve una tupla que indica la forma de la serie (número de filas, número de columnas).</td>
    <td><code>serie.shape</code></td>
  </tr>
  <tr>
    <td>ndim</td>
    <td>Devuelve la cantidad de dimensiones de la serie.</td>
    <td><code>serie.ndim</code></td>
  </tr>
  <tr>
    <td>empty</td>
    <td>Devuelve un valor booleano que indica si la serie está vacía o no.</td>
    <td><code>serie.empty</code></td>
  </tr>
  <tr>
    <td>head()</td>
    <td>Devuelve las primeras n filas de la serie.</td>
    <td><code>serie.head(5)</code></td>
  </tr>
  <tr>
    <td>tail()</td>
    <td>Devuelve las últimas n filas de la serie.</td>
    <td><code>serie.tail(5)</code></td>
  </tr>
  <tr>
    <td>describe()</td>
    <td>Calcula estadísticas descriptivas para la serie (conteo, media, desviación estándar, mínimo, percentiles, máximo, entre otros).</td>
    <td><code>serie.describe()</code></td>
  </tr>
  <tr>
    <td>min()</td>
    <td>Devuelve el valor mínimo de la serie.</td>
    <td><code>serie.min()</code></td>
  </tr>
  <tr>
    <td>max()</td>
    <td>Devuelve el valor máximo de la serie.</td>
    <td><code>serie.max()</code></td>
  </tr>
  <tr>
    <td>sum()</td>
    <td>Calcula la suma de los valores en la serie.</td>
    <td><code>serie.sum()</code></td>
  </tr>
  <tr>
    <td>mean()</td>
    <td>Calcula la media de los valores en la serie.</td>
    <td><code>serie.mean()</code></td>
  </tr>
  <tr>
    <td>median()</td>
    <td>Calcula la mediana de los valores en la serie.</td>
    <td><code>serie.median()</code></td>
  </tr>
  <tr>
    <td>std()</td>
    <td>Calcula la desviación estándar de los valores en la serie.</td>
    <td><code>serie.std()</code></td>
  </tr>
  <tr>
    <td>var()</td>
    <td>Calcula la varianza de los valores en la serie.</td>
    <td><code>serie.var()</code></td>
  </tr>
  <tr>
    <td>count()</td>
    <td>Devuelve la cantidad de valores no nulos en la serie.</td>
    <td><code>serie.count()</code></td>
  </tr>
  <tr>
    <td>idxmin()</td>
    <td>Devuelve el índice del valor mínimo en la serie.</td>
    <td><code>serie.idxmin()</code></td>
  </tr>
  <tr>
    <td>idxmax()</td>
    <td>Devuelve el índice del valor máximo en la serie.</td>
    <td><code>serie.idxmax()</code></td>
  </tr>
  <tr>
    <td>all()</td>
    <td>Devuelve True si todos los elementos de la serie son verdaderos.</td>
    <td><code>serie.all()</code></td>
  </tr>
  <tr>
    <td>any()</td>
    <td>Devuelve True si al menos un elemento de la serie es verdadero.</td>
    <td><code>serie.any()</code></td>
  </tr>
  <!-- Agrega más filas según sea necesario -->
</table>
</center>

In [None]:
import pandas as pd

precios_viviendas = [250000, 270000, 290000, 320000, 320000, 330000, 340000, 250000]
years = ['2018 Q1', '2018 Q2', '2018 Q3', '2018 Q4', '2019 Q1', '2019 Q2', '2019 Q3', '2019 Q4']

serie_precios = pd.Series(precios_viviendas, index=years)

serie_precios.name = "Precio promedio de viviendas por trimestre"

serie_precios
#print(serie_precios)

In [None]:
#serie_precios.head(3)
serie_precios.tail(2)

In [None]:
print(serie_precios.describe())


In [None]:
print(serie_precios.value_counts())
print(serie_precios.unique())

In [None]:
import matplotlib.pyplot as plt

plt.plot(serie_precios.index, serie_precios.values)
plt.show()

## Operaciones a una `serie` 

Los operadores binarios (`+`, `*`, `/`, etc.) pueden utilizarse con una serie, y **devuelven otra serie con el resultado de aplicar la operación a cada elemento de la serie**.

In [None]:
import pandas as pd
s = pd.Series([1, 2, 3, 4])
print(s)
print(s * 2)

In [None]:
s = pd.Series([1, 2, 3, 4])
t = s % 2
print(t)

In [None]:
s = pd.Series(['a', 'b', 'c'])
print(s * 5)

## Ordenar una serie

Para ordenar una serie se utilizan los siguientes métodos:

<center> <code>s.sort_values(ascending=booleano)</code></center>

Devuelve la serie que resulta de ordenar los valores la serie `s`. Si argumento del parámetro ***ascending*** es `True` el orden es creciente y si es `False` decreciente.

<center> <code>df.sort_index(ascending=booleano)</code></center> 

Devuelve la serie que resulta de ordenar el índice de la serie `s`. Si el argumento del parámetro ***ascending*** es `True` el orden es creciente y si es `False` decreciente.

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 9.5, 'Programación': 8.5})
print(s.sort_values())

In [None]:
print(s.sort_index( ascending = False ))
#print(s.sort_index(ascending = False))

## Eliminar los dados desconocidos en una serie 

Los **datos desconocidos** se representan en `Pandas` por `NaN` y los nulos por `None`. Tanto unos como otros suelen ser un problema a la hora de realizar algún análisis de datos, por lo que es habitual eliminarlos. Para eliminarlos de una serie se utiliza el siguiente método:

<center><code>s.dropna()</code></center> 

`s.dropna()` elimina los datos desconocidos o nulos de la serie `s`.

`None:` Es un objeto nativo de Python que representa ausencia de valor o "nada".

`NaN`: significa "*Not a Number*". Es un valor especial usado para representar datos numéricos faltantes o indefinidos. En pandas, es el valor estándar para denotar datos perdidos en objetos numéricos.

In [None]:
import pandas as pd
import numpy as np
s = pd.Series(['a', 'b', None, 'c', np.NaN,  'd'])

In [None]:
print(s.dropna())

## Funciones  `any` y `all`

* `all()`: Devuelve `True` si todos los elementos de la serie son verdaderos.
  
* `any()`: Devuelve `True` si al menos un elemento de la serie es verdadero.

### Ejemplo

In [None]:
import pandas as pd
import numpy as np

#Crea una Serie con valores nulos
serie = pd.Series([1, 2, np.nan, 4, 5, None])

resultado = serie.isna().any()
print("¿Hay valores nulos?:",resultado)


### Ejemplo

In [None]:
import pandas as pd

serie = pd.Series([10, 20, 30, 40, 50])
print(serie > 30)
resultado = (serie > 30).any()
print(resultado)

In [None]:
print((serie > 30 ).sum())

### Ejemplo

In [None]:
s = pd.Series(['Sí', 'No', 'Sí', 'Sí'])


serie_si = (s == 'Sí').all()
print("¿Todos respondieron 'Sí'?:", serie_si)  

serie_no = (s == 'No').any()
print("¿Alguien dijo 'No'?:", serie_no) 


## Aplicar funciones a una serie

También es posible aplicar una función a cada elemento de la serie mediante el siguiente método:

<center><code>s.apply(f)</code></center>

Devuelve una serie con el resultado de aplicar la función `f` a cada uno de los elementos de la serie `s`.


### Ejemplo

In [None]:
import pandas as pd
import numpy as np
from math import log

s = pd.Series([np.pi, 2*np.pi, 3*np.pi, 4*np.pi])
s.apply(np.sin)

In [None]:
s = pd.Series(['a', 'b', 'c'])
s.apply(str.upper)

### Ejemplo

In [None]:
s = pd.Series([7, 8.5, 9.2, 4.0], index =['Primer Parcial', 'Segundo Parcial', 'Tercer Parcial', 'Ordinario'] )

#print(s)


def calificar(calificacion):
    if calificacion >= 6:
        return 'Aprobado'
    else:
        return 'Reprobado'

print(s.apply(calificar))


### Ejemplo

In [None]:
nombres = pd.Series(['ana', 'JUAN', 'Carlos', 'RoDolFo'])

nombres_mayus = nombres.apply(lambda x: x.capitalize())
print(nombres_mayus)

## Filtrar una serie

Para filtrar una serie y quedarse con los valores que cumplen una determinada condición se utiliza el siguiente método:

<center><code>s[condicion]</code></center> 

Devuelve una serie con los elementos de la serie `s` que se corresponden con el valor `True` de la lista booleana `condicion`. `condicion` debe ser una lista de valores booleanos de la misma longitud que la serie.

### Ejemplo

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 9.5, 'Programación': 8, 'Cálculo': 7.5})
print(s[s >= 6])

In [None]:
print(s[(s > 8) & (s <= 10)])

In [None]:
print(s[s == 8])

In [None]:
print(s[s.isin([8,6])])

### Ejemplo

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 9.5, 'Programación': 8.5, 'Cálculo': 7}, name = 'Calificaciones Julio')
t = pd.Series({'Matemáticas': 7.5,  'Economía': 6.5, 'Programación': 7.5, 'Cálculo': 9}, name = 'Calificaciones Julio')

In [None]:
print(s[s >= t])

In [None]:
print(s[s >= t])

# Dataframe

Un objeto del tipo `DataFrame` define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo `Series`, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.

Un `DataFrame` contiene dos índices, uno para las *filas* y otro para las *columnas*, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.

## Creación de un DataFrame

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame({'A': [1, 2, 3]})
print(df)

In [None]:
df

### Creación de un DataFrame a partir de un diccionario de listas

Para crear un `DataFrame` a partir de un diccionario cuyas claves son los nombres de las columnas y los valores son listas con los datos de las columnas se utiliza el método:

`pd.Dataframe(data=diccionario, index=filas, columns=columnas, dtype=tipos)`

* Devuelve un objeto del tipo DataFrame cuyas columnas son las listas contenidas en los valores del diccionario `diccionario`,
  
* Los nombres de filas son los indicados en la lista `filas`,

* Los nombres de columnas son los indicados en la lista `columnas` y los tipos indicados en la lista tipos.

* La lista filas tiene que tener el mismo tamaño que las listas del diccionario, mientras que las listas columnas y tipos tienen que tener el mismo tamaño que el diccionario. 
  
* Si no se pasa la lista de filas se utilizan como nombres los enteros empezando en 0. Si no se pasa la lista de columnas se utilizan como nombres las claves del diccionario. Si no se pasa la lista de tipos, se infiere.

**Observación:** Los valores asociados a las claves del diccionario deben ser listas del mismo tamaño.

In [None]:
import pandas as pd
datos = {'nombre':['María', 'Luis', 'Carmen', 'Antonio'],
         'edad':[18, 22, 20, 21], 
         'Carrera':['Economía', 'Medicina', 'Arquitectura', 'Economía'],
         'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
         }
df = pd.DataFrame(datos)
df
#print(df)

### Creación de un DataFrame a partir de una listas de listas

Para crear un `DataFrame` a **partir de una lista de listas** con los datos de las columnas se utiliza el siguiente método:

`pd.Dataframe(data=listas, index=filas, columns=columnas, dtype=tipos)`

* Devuelve un objeto del tipo `DataFrame` cuyas columnas son los valores de las listas de la lista listas, 

* Los nombres de filas indicados en la lista `filas`, los nombres de columnas indicados en la lista `columnas` y los tipos indicados en la lista tipos. 
  
* La lista `filas`, tiene que tener el mismo tamaño que la lista listas mientras que las listas `columnas` y tipos tienen que tener el mismo tamaño que las listas anidadas en `listas`. 
  
* Si no se pasa la lista de `filas` o de `columnas` se utilizan enteros empezando en 0. Si no se pasa la lista de tipos, se infiere.

**Observación:** Si las listas anidadas en listas no tienen el mismo tamaño, las listas menores se rellenan con valores `NaN`.

In [None]:
import pandas as pd
df = pd.DataFrame([['María', 18, 'Economia'], ['Luis', 22, 'Actuaria'], ['Carmen', 20]], columns=['Nombre', 'Edad', 'Carrera'])
print(df)


### Creación de un DataFrame a partir de una lista de diccionarios

Para crear un DataFrame a partir de una lista de diccionarios con los datos de las filas, se utiliza el siguiente método:

`pd.Dataframe(data=diccionarios, index=filas, columns=columnas, dtype=tipos)`

* Devuelve un objeto del tipo DataFrame cuyas filas contienen los valores de los diccionarios de la lista diccionarios,

* Los nombres de filas indicados en la lista filas, los nombres de columnas indicados en la lista columnas y los tipos indicados en la lista tipos. 

* La lista filas tiene que tener el mismo tamaño que la lista lista. Si no se pasa la lista de filas se utilizan enteros empezando en 0.
  
* Si no se pasa la lista de columnas se utilizan las claves de los diccionarios.

**Observación:** Si no se pasa la lista de tipos, se infiere. Si los diccionarios no tienen las mismas claves, las claves que no aparecen en el diccionario se rellenan con valores `NaN`.

In [None]:
import pandas as pd
df = pd.DataFrame([{'Nombre':'María', 'Edad':18}, {'Edad':22, 'Nombre':'Luis', }, {'Nombre':'Carmen'}])
print(df)

In [None]:
dic = {'articulo1':2,'articulo2':4}
x = list(dic.values())
print(x)

### Creación de un DataFrame a partir de un array

Para crear un DataFrame a partir de un `array` de NumPy se utiliza el siguiente método:

`pd.Dataframe(data=array, index=filas, columns=columnas, dtype=tipo)`
 
* Devuelde un objeto del tipo `DataFrame` cuyas filas y columnas son las del array `array`,

* Los nombres de filas indicados en la lista `filas`, los nombres de columnas indicados en la lista `columnas` y el tipo indicado en tipo.
  
* La lista `filas` tiene que tener el mismo tamaño que el número de filas del array y la lista `columnas` el mismo tamaño que el número de columnas del `array`. 
  
* Si no se pasa la lista de `filas` se utilizan enteros empezando en 0. Si no se pasa la lista de `columnas` se utilizan las claves de los diccionarios. Si no se pasa la lista de tipos, se infiere.

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(4, 3), columns=['a', 'b', 'c'])
print(df)

### Creación de un DataFrame a partir de un fichero CSV o Excel

Dependiendo del tipo de fichero, existen distintas funciones para importar un DataFrame desde un fichero. Para cargar un archivo CSV en un `DataFrame`, utilizamos la función:

```python
pd.read_csv('fichero.csv', sep=',', header=0, index_col=None, na_values=None, decimal='.')
```

- **`fichero.csv`**: nombre o ruta del archivo CSV a importar.

- **`sep`**: especifica el carácter separador de columnas (por defecto es `','`, pero puede ser `';'`, `'\t'`, etc.).

- **`header=n`**: indica que la fila número `n` (comenzando desde 0) contiene los nombres de las columnas.

- **`index_col=m`**: usa la columna número `m` como índice del `DataFrame`. Si no se indica, se usa un índice entero por defecto (`0, 1, 2,…`).

- **`na_values`**: una lista o conjunto de cadenas que deben interpretarse como valores faltantes (`NaN`).

- **`decimal`**: define el carácter que se usará como separador decimal en los datos numéricos (por ejemplo, `'.'` o `','`).

### Uso de `read_excel()` para importar archivos de Excel

```python
pd.read_excel(fichero.xlsx, sheet_name=hoja, header=n, index_col=m, na_values=no_validos, decimal=separador_decimal)
```

- **`fichero.xlsx`**: nombre o ruta del archivo Excel desde el cual se importarán los datos.

- **`sheet_name`**: nombre o número de la hoja que se desea importar. Puede ser un nombre como `'Hoja1'` o un índice entero como `0`.

- **`header=n`**: indica que la fila número `n` (comenzando desde 0) contiene los nombres de las columnas. Si se omite, se usa la primera fila (`header=0`) por defecto.

- **`index_col=m`**: especifica que la columna número `m` debe usarse como índice del `DataFrame`. Si no se indica, se usará un índice numérico por defecto (`0, 1, 2, ...`).

- **`na_values`**: una lista, conjunto o diccionario con cadenas que deben interpretarse como valores faltantes (`NaN`). Por ejemplo: `na_values=['-', 'n/a', '']`.

- **`decimal`**: define el carácter que se usará como separador decimal en los valores numéricos. Por defecto es `'.'`, pero puede cambiarse a `','` si se trabaja con formatos europeos.


In [None]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal='.')

df

In [None]:
print(df.head())

In [None]:
df.info()

In [None]:
df.shape

In [None]:
df.size

In [None]:
df.columns

In [None]:
df.index

## Atributos de un `Dataframe`

<center>
<table>
  <tr>
    <th>Atributo</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
     <tr>
      <td>shape</td>
      <td>Devuelve una tupla con el número de filas y columnas del DataFrame.</td>
      <td>df.shape</td>
    </tr>
    <tr>
      <td>columns</td>
      <td>Devuelve una lista de los nombres de las columnas.</td>
      <td>df.columns</td>
    </tr>
    <tr>
      <td>index</td>
      <td>Devuelve el índice (etiquetas de las filas).</td>
      <td>df.index</td>
    </tr>
    <tr>
      <td>values</td>
      <td>Devuelve un array NumPy con los datos del DataFrame.</td>
      <td>df.values</td>
    </tr>
    <tr>
      <td>dtypes</td>
      <td>Devuelve los tipos de datos de cada columna.</td>
      <td>df.dtypes</td>
    </tr>
    <tr>
      <td>info()</td>
      <td>Proporciona un resumen con el número de entradas, columnas y tipos de datos.</td>
      <td>df.info()</td>
    </tr>
    <tr>
      <td>describe()</td>
      <td>Calcula estadísticas descriptivas para columnas numéricas.</td>
      <td>df.describe()</td>
    </tr>
    <tr>
      <td>head(n)</td>
      <td>Devuelve las primeras <i>n</i> filas del DataFrame.</td>
      <td>df.head(5)</td>
    </tr>
    <tr>
      <td>tail(n)</td>
      <td>Devuelve las últimas <i>n</i> filas del DataFrame.</td>
      <td>df.tail(5)</td>
    </tr>
    <tr>
      <td>T</td>
      <td>Devuelve la transposición del DataFrame.</td>
      <td>df.T</td>
    </tr>
    <tr>
      <td>empty</td>
      <td>Indica si el DataFrame está vacío.</td>
      <td>df.empty</td>
    </tr>
    <tr>
      <td>ndim</td>
      <td>Devuelve el número de dimensiones (siempre 2 en DataFrame).</td>
      <td>df.ndim</td>
    </tr>
    <tr>
      <td>size</td>
      <td>Total de elementos en el DataFrame.</td>
      <td>df.size</td>
    </tr>
    <tr>
      <td>nunique()</td>
      <td>Cantidad de valores únicos por columna.</td>
      <td>df["col"].nunique()</td>
    </tr>
    <tr>
      <td>unique()</td>
      <td>Valores únicos de una columna.</td>
      <td>df["col"].unique()</td>
    </tr>
    <tr>
      <td>duplicated()</td>
      <td>Indica si una fila es duplicada.</td>
      <td>df.duplicated()</td>
    </tr>
    <tr>
      <td>drop_duplicates()</td>
      <td>Elimina filas duplicadas.</td>
      <td>df.drop_duplicates()</td>
    </tr>
    <tr>
      <td>corr()</td>
      <td>Calcula la matriz de correlación.</td>
      <td>df.corr()</td>
    </tr>
    <tr>
      <td>cov()</td>
      <td>Calcula la matriz de covarianza.</td>
      <td>df.cov()</td>
    </tr>
    <tr>
      <td>min()</td>
      <td>Valor mínimo por columna.</td>
      <td>df.min()</td>
    </tr>
    <tr>
      <td>max()</td>
      <td>Valor máximo por columna.</td>
      <td>df.max()</td>
    </tr>
    <tr>
      <td>sum()</td>
      <td>Suma de valores por columna.</td>
      <td>df.sum()</td>
    </tr>
    <tr>
      <td>mean()</td>
      <td>Media de cada columna.</td>
      <td>df.mean()</td>
    </tr>
    <tr>
      <td>median()</td>
      <td>Mediana de cada columna.</td>
      <td>df.median()</td>
    </tr>
    <tr>
      <td>std()</td>
      <td>Desviación estándar.</td>
      <td>df.std()</td>
    </tr>
    <tr>
      <td>var()</td>
      <td>Varianza por columna.</td>
      <td>df.var()</td>
    </tr>
    <tr>
      <td>count()</td>
      <td>Total de valores no nulos por columna.</td>
      <td>df.count()</td>
    </tr>
    <tr>
      <td>isnull()</td>
      <td>Indica qué valores son nulos.</td>
      <td>df.isnull()</td>
    </tr>
    <tr>
      <td>notnull()</td>
      <td>Indica qué valores no son nulos.</td>
      <td>df.notnull()</td>
    </tr>
    <tr>
      <td>astype()</td>
      <td>Cambia el tipo de datos de una columna.</td>
      <td>df["col"].astype("float")</td>
    </tr>
    <tr>
      <td>fillna()</td>
      <td>Rellena valores nulos con un valor específico.</td>
      <td>df.fillna(0)</td>
    </tr>
    <tr>
      <td>dropna()</td>
      <td>Elimina filas con valores nulos.</td>
      <td>df.dropna()</td>
    </tr>
    <tr>
      <td><b>df.style</b></td>
      <td>Devuelve un objeto `Styler` que permite aplicar estilos visuales al DataFrame.</td>
      <td>df.style</td>
    </tr>
</table>

</center>

### Mètodos para `df.style()`

<center>
<table>
  <tr>
    <th>Método</th>
    <th>Descripción</th>
    <th>Ejemplo de Uso</th>
  </tr>
    <tr>
      <td>highlight_max()</td>
      <td>Resalta los valores máximos por columna o fila.</td>
      <td>df.style.highlight_max()</td>
    </tr>
    <tr>
      <td>highlight_min()</td>
      <td>Resalta los valores mínimos por columna o fila.</td>
      <td>df.style.highlight_min()</td>
    </tr>
    <tr>
      <td>background_gradient()</td>
      <td>Aplica un gradiente de colores según los valores.</td>
      <td>df.style.background_gradient(cmap="viridis")</td>
    </tr>
    <tr>
      <td>bar()</td>
      <td>Muestra barras horizontales dentro de las celdas según su valor.</td>
      <td>df.style.bar(color="lightblue")</td>
    </tr>
    <tr>
      <td>format()</td>
      <td>Formatea los datos con cadenas de formato.</td>
      <td>df.style.format("{:.2f}")</td>
    </tr>
    <tr>
      <td>apply()</td>
      <td>Aplica una función de estilo por fila o columna.</td>
      <td>df.style.apply(func, axis=1)</td>
    </tr>
    <tr>
      <td>applymap()</td>
      <td>Aplica una función a cada elemento individual.</td>
      <td>df.style.applymap(lambda x: "color: red" if x &lt; 0 else "")</td>
    </tr>
    <!-- <tr>
      <td>set_table_styles()</td>
      <td>Define estilos CSS personalizados para la tabla.</td>
      <td>df.style.set_table_styles([{'selector': 'th', 'props': [('font-size', '12pt')]}])</td>
    </tr> 
    <tr>
      <td>hide_index()</td>
      <td>Oculta el índice del DataFrame (Pandas &ge; 1.4).</td>
      <td>df.style.hide_index()</td>
    </tr>-->
</table>
</center>


In [40]:
import pandas as pd
import numpy as np


df = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [120, 340, 80],
    'Ganancia': [30, -50, 10]
})


df.style.highlight_max(axis=0, color='lightgreen') 
df.style.highlight_min(axis=0, color='salmon')
df.style.format({'Ganancia': "{:+.2f}"})




Unnamed: 0,Producto,Ventas,Ganancia
0,A,120,30.0
1,B,340,-50.0
2,C,80,10.0


In [24]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [1500, 3000, 2500],
    'Crecimiento': [0.12, 0.15, -0.05]
})

df.style.highlight_max(color='lightgreen')
df.style.applymap(lambda x: 'color: red' if isinstance(x, (int, float)) and x < 0 else '')
df.style.format({'Crecimiento': '{:.1%}'})
df.style.format({'Ventas': '${:,.2f}'})
df.style.bar(subset=['Ventas'], color="#30cbff")







Unnamed: 0,Producto,Ventas,Crecimiento
0,A,1500,0.12
1,B,3000,0.15
2,C,2500,-0.05


In [25]:
import pandas as pd
import numpy as np


df = pd.DataFrame({
    'A': [1, 3, 5, 7, 9],
    'B': [10, 8, 6, 4, 2],
    'C': [5, 5, 5, 5, 5]
})


df.style.background_gradient(cmap='viridis')


Unnamed: 0,A,B,C
0,1,10,5
1,3,8,5
2,5,6,5
3,7,4,5
4,9,2,5


* Puedes cambiar la paleta con otras como: `'coolwarm'`, `'Blues'`, `'Greens'`, `'plasma'`, `'magma'`, `'RdYlGn'`.

In [27]:
df.style.background_gradient(cmap='coolwarm', axis=0)  


Unnamed: 0,A,B,C
0,1,10,5
1,3,8,5
2,5,6,5
3,7,4,5
4,9,2,5


In [32]:
import pandas as pd
import numpy as np

np.random.seed(42)
data = np.random.randint(0, 10, size=(20, 6))  
columnas = ['Matemáticas', 'Física', 'Química', 'Historia', 'Geografía', 'Biología']
df = pd.DataFrame(data, columns=columnas)


df.style.background_gradient(cmap='YlGnBu')


Unnamed: 0,Matemáticas,Física,Química,Historia,Geografía,Biología
0,6,3,7,4,6,9
1,2,6,7,4,3,7
2,7,2,5,4,1,7
3,5,1,4,0,9,5
4,8,0,9,2,6,3
5,8,2,4,2,6,4
6,8,6,1,3,8,1
7,9,8,9,4,1,3
8,6,7,2,0,3,1
9,7,3,1,5,5,9


## Renombrar los nombres de las filas y columnas

Para cambiar el nombre de las filas y las columnas de un DataFrame se utiliza el siguiente método:

<center><code>df.rename(columns=columnas, index=filas)</code></center>

Devuelve el DataFrame que resulta de renombrar las columnas indicadas en las claves del diccionario columnas con sus valores y las filas indicadas en las claves del diccionario filas con sus valores en el DataFrame df.

In [None]:
import pandas as pd
df = pd.read_csv('../Archivos/colesterol.csv', sep = ';',decimal=',')
print(df)
print('-'*80)
nuevodf =  df.rename(columns={'nombre':'Nombre       Apellidos', 'edad':'Edad', 'sexo':'Sexo', 'peso':'Peso', 'altura':'Estatura', 'colesterol': 'Colesterol' }, index={0:1000, 1:1001, 2:1002})
print(nuevodf)


                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0
2             Javier García Sánchez    24    H    NaN    1.81       191.0
3               Carmen López Pinzón    35    M   65.0    1.70       200.0
4              Marisa López Collado    46    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
7             Pilar Martín González    22    M   60.0    1.66         NaN
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez   

In [51]:
df.columns = df.columns.str.upper()
df

Unnamed: 0,NOMBRE,EDAD,SEXO,PESO,ALTURA,COLESTEROL
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [53]:
df.columns = nuevodf.columns.str.strip()
df

Unnamed: 0,Nombre Apellidos,Edad,Sexo,Peso,Estatura,Colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [54]:
df.columns = nuevodf.columns.str.replace(" ", "_")
df

Unnamed: 0,Nombre__Apellidos,Edad,Sexo,Peso,Estatura,Colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


### Cambiar el índice de un DataFrame

Aunque el índice de un DataFrame suele fijarse en la creación del mismo, en ocasiones puede ser necesario cambiar el índice una vez creado el DataFrame. Para ello se utiliza el siguiente método:

<center><code>df.set_index(keys = columnas, verify_integrity = bool, drop=True, inplace=False)</code></center> 

* Devuelve el `DataFrame` que resulta de eliminar las columnas de la lista columnas y convertirlas en el nuevo índice. 
  
* El parámetro `verify_integrity` recibe un booleano (`False` por defecto) y realiza una comprobación para evitar duplicados en la clave cuando recibe `True`.

* `drop`: Es un valor booleano que indica si las columnas seleccionadas deben eliminarse del DataFrame. Si se establece en `True`, las columnas se eliminarán; si se establece en `False`, las columnas seleccionadas permanecerán en el DataFrame.

* `inplace`: Es un valor booleano que indica si se debe modificar el DataFrame original. Si se establece en `True`, el DataFrame original se modificará y no se devolverá un nuevo DataFrame; si se establece en `False`, se devolverá un nuevo DataFrame con el índice modificado y el DataFrame original no se verá afectado.


In [41]:
import pandas as pd
df = pd.read_csv('../Archivos/colesterol.csv', sep = ';',decimal=',')
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [42]:
import pandas as pd
df = pd.read_csv('../Archivos/colesterol.csv', sep = ';',decimal=',')
df.set_index(["nombre","edad"], inplace = True)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,sexo,peso,altura,colesterol
nombre,edad,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
Rosa Díaz Díaz,32,M,65.0,1.73,232.0
Javier García Sánchez,24,H,,1.81,191.0
Carmen López Pinzón,35,M,65.0,1.7,200.0
Marisa López Collado,46,M,51.0,1.58,148.0
Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
Pilar Martín González,22,M,60.0,1.66,
Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
Santiago Reillo Manzano,46,H,75.0,1.85,280.0


## Reindexar un DataFrame

Para **reordenar los índices de las filas y las columnas** de un `DataFrame`, así como añadir o eliminar índices, se utiliza el siguiente método:

<center><code>df.reindex(index=filas, columns=columnas, fill_value=relleno)</code></center>

* Devuelve el `DataFrame` que resulta de tomar del DataFrame `df` las filas con nombres en la lista `filas` y las columnas con nombres en la lista `columnas`. 

* `fill_value`: Especifica el valor para rellenar los elementos faltantes en el DataFrame después de la reindexación. Si alguno de los nombres indicados en filas o columnas no existía en el DataFrame `df`, se crean filan o columnas nuevas rellenas con el valor `relleno`.

In [44]:
import pandas as pd
df = pd.read_csv('../Archivos/colesterol.csv', sep = ';',decimal=',')

print(df.reindex(index=[4, 3, 1], columns=['nombre', 'tensión', 'colesterol'], fill_value='Sin valor'))

                 nombre    tensión  colesterol
4  Marisa López Collado  Sin valor       148.0
3   Carmen López Pinzón  Sin valor       200.0
1        Rosa Díaz Díaz  Sin valor       232.0


## Acceso a los elementos de un DataFrame

El acceso a los datos de un DataFrame se puede hacer a través de posiciones o través de los nombres de las filas y columnas.

## Accesos mediante posiciones

* <center><code>df.iloc[i, j]</code> </center>

Devuelve el elemento que se encuentra en la fila `i` y la columna `j` del DataFrame `df`. Pueden indicarse secuencias de índices para obtener partes del DataFrame.

* <center><code>df.iloc[filas, columnas]</code> </center>
  
Devuelve un DataFrame con los elementos de las filas de la lista `filas` y de las columnas de la lista `columnas`.

* <center><code>df.iloc[i]</code> </center>

Devuelve una serie con los elementos de la fila `i` del DataFrame `df`.

In [None]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
print(df)
print(df.iloc[1,3])

print(df.iloc[:,0])

## Acceso a los elementos mediante nombres

* <center><code>df.loc[fila, columna]</code> </center>

Devuelve el elemento que se encuentra en la fila con nombre `fila` y la columna de con nombre `columna` del DataFrame `df`.

* <center><code>df.loc[filas, columnas]</code> </center>
  
Devuelve un DataFrame con los elementos que se encuentra en las filas con los nombres de la lista `filas` y las columnas con los nombres de la lista `columnas` del DataFrame `df`.

* <center><code>df[columna]</code> </center>
  
Devuelve una serie con los elementos de la columna de nombre `columna` del DataFrame `df`.

* <center><code>df.columna</code> </center>

Devuelve una serie con los elementos de la columna de nombre columna del DataFrame `df`. Es similar al método anterior pero **sólo funciona cuando el nombre de la columna no tiene espacios en blanco.**

In [None]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')

#print(df.loc[2,'colesterol'])

#print(df.loc[:3,('colesterol','peso')])

#print(df['colesterol'])

print(df.colesterol)

## Operaciones con las columnas de un DataFrame

### Añadir columnas a un DataFrame

El procedimiento para añadir una nueva columna a un DataFrame es similar al de añadir un nuevo par aun diccionario, pero pasando los valores de la columna en una lista o serie:

<center><code>df[nombre] = lista </code></center>

Añade al DataFrame `df` una nueva columna con el nombre nombre y los valores de la lista `lista`. La lista debe tener el mismo tamaño que el número de filas de `df`.

<center><code>df[nombre] = serie</code></center>

Añade al DataFrame `df` una nueva columna con el nombre `nombre` y los valores de la serie `serie`. Si el tamaño de la serie es menor que el número de filas de `df` se rellena con valores `NaN` mientras que si es mayor se recorta.

 <center>
 <a href="../Archivos/colesterol.csv" target="_blank">Descargar archivo colesterol.csv</a> 
 </center>

In [None]:
import pandas as pd
df = pd.read_csv('../Archivos/colesterol.csv', sep = ';',decimal=',')
df

In [None]:
import random 
df['diabetes']=pd.Series([random.choice(['Si', 'No']) for i in range(len(df.index))])
df

In [None]:
import numpy as np


print(df['colesterol'].sum()/len(df['colesterol'].dropna()))

print(df['colesterol'].mean())



### Operaciones sobre columnas


Puesto que los datos de una misma columna de un DataFrame son del mismo tipo, es fácil aplicar la misma operación a todos los elementos de la columna como si de una serie se tratará.

In [None]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
print(df['altura']*100)

In [None]:
print(df['sexo']=='M')

### Aplicar funciones a columnas

Para aplicar funciones a todos los elementos de una columna se utiliza el siguiente método
<center><code>df[columna].apply(f)</code></center>

Devuelve una serie con los valores que resulta de aplicar la función `f` a los elementos de la columna con nombre columna del DataFrame `df`.



In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')

def f(x):
    return 2*np.exp(x)
 

print(df['altura'].apply(lambda x : 2*np.exp(x)))
print(df['altura'].apply(f))


### Convertir una columna al tipo datetime

A menudo una columna contiene cadenas que representan fechas. Para convertir estas cadenas al tipo datetime se utiliza el siguiente método:

<center><code>to_datetime(columna, formato)</code></center>

Devuelve la serie que resulta de convertir las cadenas de la `columna` con el nombre columna en fechas del tipo `datetime` con el formado especificado en formato. 

In [None]:
import pandas as pd

df=pd.DataFrame({'Nombre':['María','Carlos','Carmen'],'Nacimiento':['05-03-2000', '20-05-2001', '10-12-1999']})
print(pd.to_datetime(df.Nacimiento,format='%d-%m-%Y'))

### Resumen descriptivo de un DataFrame


Al igual que para las series, los siguientes métodos permiten resumir la información de un DataFrame por columnas:


* `df.count()`: Devuelve una serie con el número de elementos que no son nulos ni `NaN` en cada columna del DataFrame `df`.

* `df.sum()`: Devuelve una serie con la suma de los datos de las columnas del DataFrame `df` cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena `str`.

* `df.cumsum()`: Devuelve un DataFrame con la suma acumulada de los datos de las columnas del DataFrame `df` cuando los datos son de un tipo numérico.
  
* `df.min()`: Devuelve una serie con los menores de los datos de las columnas del DataFrame `df`.

* `df.max()`: Devuelve una serie con los mayores de los datos de las columnas del DataFrame `df`.

* `df.mean()`: Devuelve una serie con las medias de los datos de las columnas numéricas del DataFrame `df`.

* `df.var()`: Devuelve una serie con las varianzas de los datos de las columnas numéricas del DataFrame `df`.

* `df.std()`: Devuelve una serie con las desviaciones típicas de los datos de las columnas numéricas del DataFrame `df`.

* `df.cov()`: Devuelve un DataFrame con las covarianzas de los datos de las columnas numéricas del DataFrame `df`.

* `df.corr()`: Devuelve un DataFrame con los coeficientes de correlación de Pearson de los datos de las columnas numéricas del DataFrame `df`.
  
* `df.describe(include = tipo)`: Devuelve un DataFrame con un resumen estadístico de las columnas del DataFrame `df` del tipo tipo. Para los datos numéricos (`number`) se calcula la media, la desviación típica, el mínimo, el máximo y los cuartiles. Para los datos no numéricos (`object`) se calcula el número de valores, el número de valores distintos, la moda y su frecuencia. Si no se indica el tipo solo se consideran las columnas numéricas

In [None]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
df

In [None]:
df.diabetes.isnull().sum()

In [None]:
print(df.edad.mean())

In [None]:
print(df.edad.var())

In [None]:
print(df.edad.std())

In [None]:
df.cov()

In [None]:
df.corr()

In [None]:
print(df.describe())

In [None]:
print(df.describe(include='object'))

**Observaión:** Al utilizar el parámetro include='object' en el método describe(), se generará un resumen estadístico de las columnas de tipo objeto (cadenas de texto) en el data frame. Esto te proporcionará información descriptiva sobre estas columnas.

El resultado será un nuevo data frame que contiene la siguiente información para cada columna de tipo objeto:

* `count`: el número de valores no nulos en la columna.

* `unique`: el número de valores únicos en la columna.

* `top`: el valor más frecuente en la columna.

* `freq`: la frecuencia del valor más frecuente en la columna.

### Eliminar columnas de un DataFrame

Para eliminar columnas de un DataFrame se utilizan los siguientes métodos:

<center> <code> del d[nombre]</code></center> 

Elimina la columna con nombre nombre del DataFrame df.

<center> <code> df.pop(nombre) </code></center>  

Elimina la columna con nombre nombre del DataFrame df y la devuelve como una serie.


In [None]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
edad = df.pop('edad')
df

## Operaciones con las filas de un DataFrame

### Añadir una fila a un DataFrame


Para añadir una fila a un DataFrame se utiliza el siguiente método:

<center><code>df.append(serie, ignore_index=True)</code></center>

Devuelve el DataFrame que resulta de añadir una fila al DataFrame `df` con los valores de la serie `serie`. Los nombres del índice de la serie deben corresponderse con los nombres de las columnas de `df`. Si no se pasa el parámetro `ignore_index` entonces debe pasarse el parámetro `name` a la serie, donde su argumento será el nombre de la nueva fila.

In [None]:
df = df.append(pd.Series(['Carlos Rivas', 28, 'H', 89.0, 1.78, 245.0], index=['nombre','edad','sexo','peso','altura','colesterol']), ignore_index=True)
print(df.tail())

### Eliminar filas de un DataFrame

Para eliminar filas de un DataFrame se utilizan el siguiente método:

<center><code> df.drop(filas) </code></center>

Devuelve el DataFrame que resulta de eliminar las `filas` con los nombres indicados en la lista filas del DataFrame `df`.

In [None]:
print(df.drop([1, 3]))

### Filtrar las filas de un DataFrame

Una operación bastante común con un DataFrame es obtener las filas que cumplen una determinada condición.

<center><code>df[condicion]</code></center> 

Devuelve un DataFrame con las filas del DataFrame `df` que se corresponden con el valor `True` de la lista booleana `condicion`. condicion debe ser una lista de valores booleanos de la misma longitud que el número de filas del DataFrame.

In [None]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
print(df[(df['sexo']=='H') & (df['colesterol'] > 260)])

### Ordenar un DataFrame


Para ordenar un DataFrame de acuerdo a los valores de una determinada columna se utilizan los siguientes métodos:

<center><code>df.sort_values(columna, ascending=booleano)</code></center> 

Devuelve el DataFrame que resulta de ordenar las filas del DataFrame `df` según los valores del la columna con nombre columna. Si argumento del parámetro `ascending` es `True` el orden es creciente y si es False decreciente.

<center><code>df.sort_index(ascending=booleano)</code></center>

Devuelve el DataFrame que resulta de ordenar las filas del DataFrame `df` según los nombres de las filas. Si el argumento del parámetro `ascending` es `True` el orden es creciente y si es False decreciente.

In [None]:
import pandas as pd
df = pd.read_csv('./Archivos/colesterol.csv', sep = ';',decimal=',')
print(df.sort_values('colesterol'))

## Eliminar las filas con dados desconocidos en un DataFrame


Para eliminar las filas de un DataFrame que contienen datos desconocidos `NaN` o nulos `None` se utiliza el siguiente método:

<center><code>s.dropna(subset=columnas)</code></center> 

Devuelve el DataFrame que resulta de eliminar las filas que contienen algún dato desconocido o nulo en las columnas de la lista `columna` del DataFrame `df`. Si no se pasa un argumento al parámetro subset se aplica a todas las columnas del DataFrame.

In [None]:
print(df.dropna())