# Tema 1.6: La librería Pandas

Pandas es una librería de código abierto que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar para Python. 

Es fundamental para la ciencia de datos y combina la potencia de NumPy con la facilidad de uso de las hojas de cálculo.

Pandas no pertenece a la librería estándar de Python, por lo que debemos instalarla mediante pip:

In [1]:
#!pip install pandas # Esto solo es necesario ejecutarlo una vez, descomentar línea y ejecutar en caso necesario.

In [2]:
import pandas as pd # típicamente se importa con el alias pd
import numpy as np

## 1. Estructuras de datos principales

Pandas tiene dos estructuras de datos principales:
- **Series**: Un array unidimensional etiquetado capaz de contener cualquier tipo de datos.
- **DataFrame**: Una estructura de datos bidimensional (tabular) con ejes etiquetados (filas y columnas).

### 1.1. Series

Una Series es como una columna en una hoja de cálculo o un diccionario ordenado.

In [3]:
s = pd.Series([1, 3, 5, 6, 8])
print(s)

0    1
1    3
2    5
3    6
4    8
dtype: int64


### 1.2. DataFrame

Un DataFrame representa una tabla rectangular de datos y contiene una colección ordenada de columnas, cada una de las cuales puede ser un tipo de valor diferente (numérico, cadena, booleano, etc.).

In [4]:
dates = pd.date_range("20230101", periods=6) 
df_temperaturas = pd.DataFrame(np.random.randint(low=15, high=20, size=(6, 4)), 
                               index=dates, 
                               columns=["Castelló", "València", "Dènia", "Alacant"])
print(df_temperaturas)

            Castelló  València  Dènia  Alacant
2023-01-01        16        15     15       19
2023-01-02        18        15     18       17
2023-01-03        19        18     17       17
2023-01-04        18        17     17       17
2023-01-05        18        19     16       18
2023-01-06        15        17     18       15


## 2. Creación de DataFrames

Podemos crear DataFrames a partir de diccionarios, listas, o arrays de NumPy.

In [5]:
data = {
    'Nombre': ['Ana', 'Juan', 'Maria', 'Pedro'],
    'Edad': [23, 25, 21, 24],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla'],
    'Altura': [1.65, 1.75, 1.70, 1.80],
    'Peso': [65, 75, 68, 72],
    'Genero': ['F', 'M', 'F', 'M'],
    'Nota': [9, 5, 7, 3]
}
df_estudiantes = pd.DataFrame(data)
print(df_estudiantes)

  Nombre  Edad     Ciudad  Altura  Peso Genero  Nota
0    Ana    23     Madrid    1.65    65      F     9
1   Juan    25  Barcelona    1.75    75      M     5
2  Maria    21   Valencia    1.70    68      F     7
3  Pedro    24    Sevilla    1.80    72      M     3


## 3. Indexación y Selección

Pandas ofrece métodos optimizados para acceder a los datos: `.at`, `.iat`, `.loc`, `.iloc`.

In [6]:
print(df_temperaturas)

# .at
print("\nSelección de valor por claves (at):\n", df_temperaturas.at["2023-01-01", "València"])

# .iat
print("\nSelección de valor por índices (iat):\n", df_temperaturas.iat[0, 2])

# .loc
print("\nSelección de columnas por clave (loc):\n", df_temperaturas.loc["2023-01-01", :])
print("\nSelección de filas por clave (loc):\n", df_temperaturas.loc[:, "València"])

# .iloc
print("\nSelección de columnas por posición (iloc):\n", df_temperaturas.iloc[3,:])
print("\nSelección de filas por posición (iloc):\n", df_temperaturas.iloc[:,3])

            Castelló  València  Dènia  Alacant
2023-01-01        16        15     15       19
2023-01-02        18        15     18       17
2023-01-03        19        18     17       17
2023-01-04        18        17     17       17
2023-01-05        18        19     16       18
2023-01-06        15        17     18       15

Selección de valor por claves (at):
 15

Selección de valor por índices (iat):
 15

Selección de columnas por clave (loc):
 Castelló    16
València    15
Dènia       15
Alacant     19
Name: 2023-01-01 00:00:00, dtype: int64

Selección de filas por clave (loc):
 2023-01-01    15
2023-01-02    15
2023-01-03    18
2023-01-04    17
2023-01-05    19
2023-01-06    17
Freq: D, Name: València, dtype: int64

Selección de columnas por posición (iloc):
 Castelló    18
València    17
Dènia       17
Alacant     17
Name: 2023-01-04 00:00:00, dtype: int64

Selección de filas por posición (iloc):
 2023-01-01    19
2023-01-02    17
2023-01-03    17
2023-01-04    17
2023-01-05   

## 4. Operaciones básicas

Podemos realizar cálculos estadísticos rápidos y operaciones con los datos.

In [7]:
print(df_temperaturas)
print("\nMedia por columnas:\n", df_temperaturas.mean())
print("\nDescripción estadística:\n", df_temperaturas.describe())

            Castelló  València  Dènia  Alacant
2023-01-01        16        15     15       19
2023-01-02        18        15     18       17
2023-01-03        19        18     17       17
2023-01-04        18        17     17       17
2023-01-05        18        19     16       18
2023-01-06        15        17     18       15

Media por columnas:
 Castelló    17.333333
València    16.833333
Dènia       16.833333
Alacant     17.166667
dtype: float64

Descripción estadística:
         Castelló   València      Dènia    Alacant
count   6.000000   6.000000   6.000000   6.000000
mean   17.333333  16.833333  16.833333  17.166667
std     1.505545   1.602082   1.169045   1.329160
min    15.000000  15.000000  15.000000  15.000000
25%    16.500000  15.500000  16.250000  17.000000
50%    18.000000  17.000000  17.000000  17.000000
75%    18.000000  17.750000  17.750000  17.750000
max    19.000000  19.000000  18.000000  19.000000
