[**Pandas**](https://pandas.pydata.org/) es una librería especializada en el manejo y análisis de estructuras de datos. Cuando pienses en tablas, piensa en pandas 

![image.png](attachment:image.png)

Pandas dispone de tres estructuras de datos diferentes: `Series`, `DataFrame` e `Index`, construidas a partir de arrays de NumPy, pero con nuevas funcionalidades

## La clase pd.Series

Son estructuras similares a los arrays de una dimensión. Estos objetos disponen de un índie que asocia una etiqueta a cada elemento de la serie, de manera similar a un diccionario

Como puedes ver, `Series` contiene una secuencia de valores y una secuencia de índices, a los cuales podemos acceder mediante los atributos `values` e `index`. Los `values` son un arrray de NumPy:

El `index` es un objeto de tipo array, que contiene los nombres de las filas de la serie

Podemos acceder a los elementos de una serie por su posición o por su índice

Los siguientes métodos permiten resumir varios aspectos de una serie:

- `s.count()` : Devuelve el número de elementos que no son nulos ni NaN en la serie s.
- `s.sum()` : Devuelve la suma de los datos de la serie s cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo str.
- `s.cumsum()` : Devuelve una serie con la suma acumulada de los datos de la serie s cuando los datos son de un tipo numérico.
- `s.value_counts()` : Devuelve una serie con la frecuencia (número de repeticiones) de cada valor de la serie s.
- `s.min()` : Devuelve el menor de los datos de la serie s.
- `s.max()` : Devuelve el mayor de los datos de la serie s.
- `s.mean()` : Devuelve la media de los datos de la serie s cuando los datos son de un tipo numérico.
- `s.var()` : Devuelve la varianza de los datos de la serie s cuando los datos son de un tipo numérico.
- `s.std()` : Devuelve la desviación típica de los datos de la serie s cuando los datos son de un tipo numérico.
- `s.describe()`: Devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartiles.

Es posible aplicar **funciones** a una serie mediante `s.apply(f)`, devolviendo una nueva serie con el resultado de aplicar la función `f` a cada elemento de la serie `s`

Para **filtrar** una serie y quedarse con los valores que cumplen una determinada condición utilizamos `s[condicion]`  

Para **ordenar** una serie utilizamos el método `sort_values()`

Si tenemos **datos desconocidos** en la serie, como `NaN` o `None`, podemos eliminarlos con el método `dropna()` o modificarlos con `fillna()`

## La clase pd.DataFrame

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.

Ejemplo. El siguiente DataFrame contiene información sobre los alumnos de un curso. Cada fila corresponde a un alumno y cada columna a una variable.

![image.png](attachment:image.png)

Puedo crear un DataFrame a partir de un diccionario de listas (del mismo tamaño)

También puedo crear DataFrames con una lista de listas

También puedo crear DataFrames con arrays de NumPy o Series

### Atributos y métodos principales de un DataFrame
Existen varias propiedades o métodos para ver las características de un DataFrame.

- `df.info()` : Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.
- `df.shape` : Devuelve una tupla con el número de filas y columnas del DataFrame df.
- `df.size` : Devuelve el número de elementos del DataFrame.
- `df.columns` : Devuelve una lista con los nombres de las columnas del DataFrame df.
- `df.index` : Devuelve una lista con los nombres de las filas del DataFrame df.
- `df.dtypes` : Devuelve una serie con los tipos de datos de las columnas del DataFrame df.
- `df.head(n)` : Devuelve las n primeras filas del DataFrame df.
- `df.tail(n)` : Devuelve las n últimas filas del DataFrame df.

Para **renombrar** columnas e índices usamos el método `rename()`

Podemos borrar el index con el método `reset_index()`. Con el argumento `drop=True` evitamos que el índice se convierta en una columna adicional 

### Acceder a los elementos de un DataFrame

Para seleccionar columnas, las podemos pasar a través de una lista

Si hacemos `df[columna]` obtenemos una serie con los elementos de la columna. Esto es equivalente a `df.columna` siempre que el nombre de la columna no tenga espacios en blanco

Para acceder a través de posiciones usamos `iloc` (índices):  
- `df.iloc[i,j]`: devuelve el elemento de la fila `i`, columna `j`, pudiendo indicarse secuencias de índices
- `df.iloc[filas, columnas]`: devuelve un DataFrame con los elementos de las filas de `filas` y las columnas de `columnas` (listas de índices)
- `df.iloc[i]`: Devuelve una serie con los elementos de la fila `i`

También podemos acceder mediante nombres con `loc`

Generalmente, usamos `loc` para **filtrar** dataframes

In [None]:
# Ejemplo: obtener las especies 'setosa' con longitud de pétalo inferior a 1.3


In [None]:
# Igual que antes pero seleccionando solo las columnas relacionadas al pétalo


In [None]:
# También puede filtrarse sin iloc


### Operaciones sobre columnas de un DataFrame

In [None]:
# Añadir columnas


In [None]:
# Operaciones sobre columnas


In [None]:
# Eliminar columnas


### Operaciones sobre filas de un DataFrame

In [None]:
# Eliminar filas


In [None]:
# Ordenar un DataFrame


Igual que en la series, podemos aplicar los métodos `dropna()` y `fillna()` a cualquier columna de un DataFrame

### Funciones Lambda  
La función lambda es una forma de definir una función en una sola línea de código. Usualmente se asigna a una variable. Es común aplicarla a DataFrames

También podemos aplicar condiciones `if`. En términos generales la sintaxis de una función lambda es la siguiente:  
`variable = lambda x: [SALIDA SI ES TRUE] if [CONDICIONAL] else [SALIDA SI ES FALSE]`

In [None]:
# Función lambda aplicada a columnas 


In [None]:
# Función lambda aplicada a filas (axis = 1)


### Group by de DataFrames

Para aplicar funciones de agregación usamos el siguiente método:  
`df.groupby(columnas).agg(funciones)`

In [None]:
# Valores medios por especie


In [None]:
# Si queremos mantener el índice


In [None]:
# Para agregar con varias funciones


### Pivotar un DataFrame
A menudo la disposición de los datos en un DataFrame no es la adecuada para su tratamiento y es necesario reestructurar el DataFrame. Los datos que contiene un DataFrame pueden organizarse en dos formatos: ancho y largo.

![image.png](attachment:image.png)

In [None]:
datos = pd.DataFrame({'Nombre':['María', 'Luis', 'Carmen'],
                      'Edad':[18, 22, 20],
                      'Matemáticas':[8.5, 7, 3.5],
                      'Economía':[8, 6.5, 5],
                      'Programación':[6.5, 4, 9]})
datos

### Combinar DataFrames

![image.png](attachment:image.png)

Los **JOIN** de SQL en pandas se aplican con el método `merge` (por defecto es un INNER JOIN)

In [None]:
df1 = pd.DataFrame({"IdAlumno":["101", "102", "104"],  "Sexo":["Mujer", "Hombre", "Mujer"]})
df2 = pd.DataFrame({"IdStudent":["101", "104", "109"], "Edad":[25, 30, 18]})
display(df1)
display(df2)

### Lectura de ficheros

Las funciones `pd.read_csv()` y `pd.read_excel()` nos permiten leer ficheros csv y Excel, respectivamente.   
Por ejemplo, vamos a leer un csv de https://github.com/datadista/datasets/tree/master/COVID%2019

Para trabajar con fechas, es conveniente transformar la columna a tipo `datetime`

### Resumen descriptivo de un DataFrame
Al igual que para las series, los siguientes métodos permiten resumir la información de un DataFrame por columnas:

- `df.count()` : Devuelve una serie con el número de elementos que no son nulos ni NaN en cada columna del DataFrame df.
- `df.sum()` : Devuelve una serie con la suma de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.
- `df.cumsum()` : Devuelve un DataFrame con la suma acumulada de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico.
- `df.min()` : Devuelve una serie con los menores de los datos de las columnas del DataFrame df.
- `df.max()` : Devuelve una serie con los mayores de los datos de las columnas del DataFrame df.
- `df.mean()` : Devuelve una serie con las medias de los datos de las columnas numéricas del DataFrame df.
- `df.var()` : Devuelve una serie con las varianzas de los datos de las columnas numéricas del DataFrame df.
- `df.std()` : Devuelve una serie con las desviaciones típicas de los datos de las columnas numéricas del DataFrame df.
- `df.cov()`: Devuelve un DataFrame con las covarianzas de los datos de las columnas numéricas del DataFrame df.
- `df.corr()` : Devuelve un DataFrame con los coeficientes de correlación de Pearson de los datos de las columnas numéricas del DataFrame df.
- `df.describe()` : Devuelve un DataFrame con un resumen estadístico de las columnas del DataFrame df del tipo tipo. Para los datos numéricos (number) se calcula la media, la desviación típica, el mínimo, el máximo y los cuartiles. Para los datos no numéricos (object) se calcula el número de valores, el número de valores distintos, la moda y su frecuencia. Si no se indica el tipo solo se consideran las columnas numéricas.