# Librería Pandas
---


In [1]:
import pandas as pd # Importar modulos de la libreria pandas

Las principales características de esta librería son:

- Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.
- Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
- Permite acceder a los datos mediante índices o nombres para filas y columnas.
- Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
- Permite trabajar con series temporales.
- Realiza todas estas operaciones de manera muy eficiente.

## Tipos de datos de Pandas
Pandas dispone de tres estructuras de datos diferentes:

**Series:** Estructura de una dimensión.

**DataFrame:** Estructura de dos dimensiones (tablas).

**Panel:** Estructura de tres dimensiones (cubos).

Todas estas estructuras se construyen a partir de arrays de la librería NumPy, añadiendo nuevas funcionalidades.

### **La clase de objetos Series**
Son estructuras similares a los arrays de una dimensión. Son homogéneas, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es inmutable, es decir, no se puede cambiar, aunque si su contenido. Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

- **Creación de una serie a partir de una lista** : `Series(data=lista, index=indices, dtype=tipo)` devuelve un objeto de tipo Series con los datos de la lista lista, las filas especificados en la lista indices y el tipo de datos indicado en tipo. Si no se pasa la lista de índices se utilizan como índices los enteros del $0$ al $n-1$, donde $n$ es el tamaño de la serie. Si no se pasa el tipo de dato se infiere.

In [2]:
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


- **Creación de una serie a partir de un diccionario**:
`Series(data=diccionario, index=indices)` devuelve un objeto de tipo Series con los valores del diccionario diccionario y las filas especificados en la lista indices. Si no se pasa la lista de índices se utilizan como índices las claves del diccionario.

In [3]:
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s)

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


#### **Atributos de una serie**
Existen varias propiedades o métodos para ver las características de una serie.

- `s.size` : Devuelve el número de elementos de la serie `s`.
- `s.index` : Devuelve una lista con los nombres de las filas del DataFrame `s`.
- `s.dtype` : Devuelve el tipo de datos de los elementos de la serie `s`.

In [4]:
s = pd.Series([1, 2, 2, 3, 3, 3, 4, 4, 4, 4])
s.size


10

In [5]:
s.index

RangeIndex(start=0, stop=10, step=1)

In [6]:
s.dtype

dtype('int64')

#### **Acceso a los elementos de una serie**
El acceso a los elementos de un objeto del tipo Series puede ser a través de posiciones o través de índices (nombres).

- `s[i]` : Devuelve el elemento que ocupa la posición i+1 en la serie s.
- `s[nombres]`: Devuelve otra serie con los elementos con los nombres de la lista nombres en el índice.

In [7]:
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
s[1:3]

Economía        4.5
Programación    8.5
dtype: float64

In [8]:
s['Economía']

4.5

In [9]:
s[['Programación', 'Matemáticas']]

Programación    8.5
Matemáticas     6.0
dtype: float64

#### **Resumen descriptivo de una serie**
Las siguientes funciones permiten resumir varios aspectos de una serie:

- `s.count() `: Devuelve el número de elementos que no son nulos ni `NaN` en la serie s.
- `s.sum() `: Devuelve la suma de los datos de la serie s cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.
- `s.cumsum()` : Devuelve una serie con la suma acumulada de los datos de la serie s cuando los datos son de un tipo numérico.
- `s.value_counts()` : Devuelve una serie con la frecuencia (número de repeticiones) de cada valor de la serie s.
- `s.min()` : Devuelve el menor de los datos de la serie s.
- `s.max() `: Devuelve el mayor de los datos de la serie s.
- `s.mean() `: Devuelve la media de los datos de la serie s cuando los datos son de un tipo numérico.
- `s.std()` : Devuelve la desviación típica de los datos de la serie s cuando los datos son de un tipo numérico.
- `s.describe()`: Devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartiles.

In [10]:
s = pd.Series([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])
s.count(),s.sum(),s.min(),s.max(),s.mean(),s.std()

(10, 20, 1, 4, 2.0, 1.0540925533894598)

In [11]:
s.cumsum()

0     1
1     2
2     3
3     4
4     6
5     8
6    10
7    13
8    16
9    20
dtype: int64

In [12]:
s.value_counts()

1    4
2    3
3    2
4    1
dtype: int64

In [13]:
s.describe()

count    10.000000
mean      2.000000
std       1.054093
min       1.000000
25%       1.000000
50%       2.000000
75%       2.750000
max       4.000000
dtype: float64

#### **Aplicar operaciones a una serie**
Los operadores binarios `(+, *, /, etc.)` pueden utilizarse con una serie, y devuelven otra serie con el resultado de aplicar la operación a cada elemento de la serie.

In [14]:
s = pd.Series([1, 2, 3, 4])
s*2,s%2

(0    2
 1    4
 2    6
 3    8
 dtype: int64, 0    1
 1    0
 2    1
 3    0
 dtype: int64)

In [15]:
s = pd.Series(['a', 'b', 'c'])
s*5

0    aaaaa
1    bbbbb
2    ccccc
dtype: object

#### **Aplicar funciones a una serie**
También es posible aplicar una función a cada elemento de la serie mediante el siguiente método: `s.apply(f)` devuelve una serie con el resultado de aplicar la función f a cada uno de los elementos de la serie s.

In [16]:
from math import log
s = pd.Series([1, 2, 3, 4])
s.apply(log)

0    0.000000
1    0.693147
2    1.098612
3    1.386294
dtype: float64

#### **Filtrado de una serie**
Para filtrar una serie y quedarse con los valores que cumplen una determinada condición se utiliza el siguiente método; `s[condicion]` : Devuelve una serie con los elementos de la serie `s` que se corresponden con el valor `True` de la lista booleana `condicion.condicion` debe ser una lista de valores booleanos de la misma longitud que la serie.

In [17]:
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s[s > 5])

Matemáticas     6.0
Programación    8.5
dtype: float64


#### **Ordenar una serie**
Para ordenar una serie se utilizan los siguientes métodos:

- `s.sort_values(ascending=booleano) `: Devuelve la serie que resulta de ordenar los valores la serie s. Si argumento del parámetro `ascending` es `True` el orden es creciente y si es `False` decreciente.

- `df.sort_index(ascending=booleano)` : Devuelve la serie que resulta de ordenar el índice de la serie s. Si el argumento del parámetro `ascending` es `True` el orden es creciente y si es `False` decreciente.

In [18]:
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s.sort_values())

Economía        4.5
Matemáticas     6.0
Programación    8.5
dtype: float64


In [19]:
print(s.sort_index(ascending = False))

Programación    8.5
Matemáticas     6.0
Economía        4.5
dtype: float64
