# *pandas* na práctica

Este notebook está enfocado ao uso de **pandas** na práctica.

**Importacións recomendadas**

Para manexar **pandas** é habitual facer estas importacións:
- `numpy`: módulo de computación numérica.
- `pandas`: módulo para análise de datos.
- `IPython.display`: para visualizar de forma máis atractiva os *DataFrames*.

In [1]:
import numpy as np
import pandas as pd
from IPython.display import display

## 1. Estruturas de datos básicas en pandas

### Series
Unha `Series` é un array unidimensional etiquetado (calquera tipo: int, float, string, obxectos de Python…). 
Método básico de creación:
```python
s = pd.Series(data, index=index)
```

Onde `data` pode ser:
- Un dicionario de python (`dict`).
- un `ndarray`.
- Un valor escalar.

#### Creación a partir de *ndarray*
O *index* é opcional, se non se pasa créase automáticamente un cos valores `[0,..., len(data)-1]`.


In [3]:
# A partir de ndarray:

s = pd.Series(np.random.randn(5), index = ["a", "b", "c", "d", "e"])
s

a   -1.099427
b   -2.314373
c    0.443223
d    1.203526
e   -1.786452
dtype: float64

#### Creación a partir de *dicionario*
Poden crearse series automáticamente a partir de dicionarios (*dict*). Se se proporciona un *index* só se terán en conta os valores con etiquetas coincidentes co mesno. Os membros do índice que non se correspondan con etiqueteas do dicionario tomarán o "valor" *NaN*.

In [9]:
# A partir de dict
d = {"b": 1, "a": 2, "c": 3}
s2 = pd.Series(d)
# Exemplo con índice
# s2 = pd.Series(d, index=["a","b","d"])
s2


b    1
a    2
c    3
dtype: int64

#### Creación a partir de *escalar*
Tamén poden crearse *Series* a partir dun valor escalar. Nese caso o valor repetirase segundo a lonxitude do *index*.

In [6]:
# A partir de escalar
s3 = pd.Series(5.0, index =["a", "b", "c"])
s3

a    5.0
b    5.0
c    5.0
dtype: float64

Consideracións sobre as `Series`:
- Compórtanse como **ndarray** soportando casi todas as operacións. Sen embargo, hai que ter en conta que operacións como *slicing* afectarán tamén ao índice.
- Compórtanse tamén como **dicionarios**, permitindo acceder a valores a partir da etiqueta do *índice*.
- Opcionalmente tamén teñen un atributo **name** que se pode indicar no momento da creación.

### DataFrame
Un `DataFrame` é unha estrutura de datos bidimensional con etiquetas, con columnas que poden ser de tipos diferentes. Pódese imaxinar como unha folla de cálculo ou unha táboa *SQL*, ou ben como un dicionario de obxectos Series. En xeral, é o obxecto máis empregado en pandas. Igual que ocorre con Series, DataFrame acepta moitos tipos distintos de entrada:
- Dicionario (`dict`) de `ndarray` unidimensionais, listas, dicionarios ou Series.
- `numpy.ndarray` bidimensional.
- ndarray estruturado ou de rexistros.
- Unha `Series`
- Outro `DataFrame`

Opcionalmente poden pasarse os seguintes parámetros.
- **index**: etiquetas das filas.
- **columns**: etiquetas das columnas.

#### Creación a partir de *dicionario de ndarrays/listas*
Todos os `ndarrays` deben ter a mesma lonxitude. Se se pasa un índice tamén ter qeu ter a mesma lonxitude. Se non se pasa será `range(n)`.

In [3]:
# A partir de dicionario de ndarray/listas
d = {"un": [1, 2, 3, 4], "dous":[6.0,7.0,8.0,9.0]}
df = pd.DataFrame(d)
df

Unnamed: 0,un,dous
0,1,6.0
1,2,7.0
2,3,8.0
3,4,9.0


#### A partir dun *array de estruturas ou rexistros*
Non moi habitual.


In [6]:
data = np.zeros((2,), dtype=[("A", "i4"), ("B", "f4"), ("C", "a10")])
data[:] = [(1, 2.0, "Hello"), (2, 3.0, "World")]
df2 = pd.DataFrame(data)
df2

Unnamed: 0,A,B,C
0,1,2.0,b'Hello'
1,2,3.0,b'World'


#### A partir dunha *lista de dicionarios*


In [15]:
data2 = [{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}]
df3 = pd.DataFrame(data2)
df3

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


#### A partir dun *dicionario de tuplas*


In [18]:
df4 = pd.DataFrame(
    {
        ("a", "b"): {("A", "B"): 1, ("A", "C"): 2},
        ("a", "a"): {("A", "C"): 3, ("A", "B"): 4},
        ("a", "c"): {("A", "B"): 5, ("A", "C"): 6},
        ("b", "a"): {("A", "C"): 7, ("A", "B"): 8},
        ("b", "b"): {("A", "D"): 9, ("A", "B"): 10},
    }
)
df4

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b
A,B,1.0,4.0,5.0,8.0,10.0
A,C,2.0,3.0,6.0,7.0,
A,D,,,,,9.0


#### A partir dunha *Series*

In [19]:
s = pd.Series(range(3), index=list("abc"), name="ser")
df5 = pd.DataFrame(s)
df5

Unnamed: 0,ser
a,0
b,1
c,2


#### A partir dunha lista de *namedtuples*
Os nomes dos campos da primeira tupla da lista determinan as columnas do **DataFrame**.

In [21]:
from collections import namedtuple

Point = namedtuple("Point", "x y")

df6 = pd.DataFrame([Point(0, 0), Point(0, 3), (2, 3)])
df6

Unnamed: 0,x,y
0,0,0
1,0,3
2,2,3


#### A partir dunha lista de *dataclasses*
Semellante a pasar unha lista de dicionarios.

In [23]:
from dataclasses import make_dataclass

Point = make_dataclass("Point", [("x", int), ("y", int)])

df7 = pd.DataFrame([Point(0, 0), Point(0, 3), Point(2, 3)])
df7

Unnamed: 0,x,y
0,0,0
1,0,3
2,2,3


**Series** a partir dunha lista (pandas crea un `RangeIndex` por defecto):

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

#### Construtores alternativos
- `DataFrame.from_dict()`: crea un DF a partir dun dicionario de dicionarios ou dun dicionario de arrays.

In [24]:
df8 = pd.DataFrame.from_dict(dict([("A", [1, 2, 3]), ("B", [4, 5, 6])]))
df8

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


- `DataFrame.from_records`

In [3]:
data = np.array(
    [(1, 2., b'Hello'), (2, 3., b'World')],
    dtype=[('A', '<i4'), ('B', '<f4'), ('C', 'S10')]
)

df9 = pd.DataFrame.from_records(data, index="C")
df9


Unnamed: 0_level_0,A,B
C,Unnamed: 1_level_1,Unnamed: 2_level_1
b'Hello',1,2.0
b'World',2,3.0


#### Operacións con columnas
| Operación                           | Sintaxe         | Resultado   |
|-------------------------------------|-----------------|-------------|
| Seleccionar unha columna            | `df[col]`       | Series      |
| Seleccionar unha fila por etiqueta  | `df.loc[label]` | Series      |
| Seleccionar unha fila por posición  | `df.iloc[loc]`  | Series      |
| Fatiar filas                        | `df[5:10]`      | DataFrame   |
| Seleccionar filas cun vector lóxico | `df[bool_vec]`  | DataFrame   |


In [5]:
# Exemplos:
# Seleccionar unha columna:
display(df["un"])

0    1
1    2
2    3
3    4
Name: un, dtype: int64

## 2. Visualización rápida de datos
Imos empregar os seguintes DataFrames para exemplificar as diferentes operacións:


In [6]:
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
print ("df:")
display(df)
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "none"]),
        "F": "foo",
    }
)
print ("df2:")
display(df2)


df:


Unnamed: 0,A,B,C,D
2013-01-01,-1.552774,0.307371,-0.114671,-0.406623
2013-01-02,-0.167043,-0.878004,0.312697,-1.119811
2013-01-03,0.447901,-1.177936,-0.747903,-0.517672
2013-01-04,2.014769,1.47152,-3.926166,-0.864319
2013-01-05,-0.279355,0.948285,-0.909921,0.357762
2013-01-06,0.600544,-2.327438,-0.567549,-0.693234


df2:


Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,none,foo


Exemplos: 

In [24]:
# Tipos das columnas
df2.dtypes

A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object

In [8]:
# Primeiras filas
df.head()  

Unnamed: 0,un,dous
0,1,6.0
1,2,7.0
2,3,8.0
3,4,9.0


In [None]:
# últimas 3 filas
df.tail(3)  

In [9]:
# Índice:
df.index 

RangeIndex(start=0, stop=4, step=1)

In [25]:
# columnas
df.columns  

Index(['A', 'B', 'C', 'D'], dtype='object')

In [7]:
# Representación como matriz de NumPy (sen etiquetas de filas/columnas):
df.to_numpy()

array([[-1.55277351,  0.30737124, -0.11467132, -0.40662299],
       [-0.16704305, -0.87800387,  0.31269667, -1.11981149],
       [ 0.44790137, -1.17793642, -0.74790332, -0.51767162],
       [ 2.01476927,  1.47152013, -3.92616643, -0.86431907],
       [-0.27935495,  0.94828477, -0.90992106,  0.35776234],
       [ 0.60054357, -2.32743769, -0.56754871, -0.69323402]])

> ℹ️ **Nota**: os arrays de NumPy teñen **un único dtype** para todo o array; nos DataFrames cada columna pode ter un dtype distinto.

In [8]:
df2.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'none', 'foo']],
      dtype=object)

In [9]:
# Resumo estatístico rápido:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.17734,-0.276034,-0.992252,-0.540649
std,1.17889,1.433689,1.505174,0.507761
min,-1.552774,-2.327438,-3.926166,-1.119811
25%,-0.251277,-1.102953,-0.869417,-0.821548
50%,0.140429,-0.285316,-0.657726,-0.605453
75%,0.562383,0.788056,-0.227891,-0.434385
max,2.014769,1.47152,0.312697,0.357762


In [10]:
# Transpoñer a táboa:
df.T

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,-1.552774,-0.167043,0.447901,2.014769,-0.279355,0.600544
B,0.307371,-0.878004,-1.177936,1.47152,0.948285,-2.327438
C,-0.114671,0.312697,-0.747903,-3.926166,-0.909921,-0.567549
D,-0.406623,-1.119811,-0.517672,-0.864319,0.357762,-0.693234


In [11]:
# Ordenar por eixes/valores:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-0.406623,-0.114671,0.307371,-1.552774
2013-01-02,-1.119811,0.312697,-0.878004,-0.167043
2013-01-03,-0.517672,-0.747903,-1.177936,0.447901
2013-01-04,-0.864319,-3.926166,1.47152,2.014769
2013-01-05,0.357762,-0.909921,0.948285,-0.279355
2013-01-06,-0.693234,-0.567549,-2.327438,0.600544


In [12]:
# Ordear por unha columna en concreto
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2013-01-06,0.600544,-2.327438,-0.567549,-0.693234
2013-01-03,0.447901,-1.177936,-0.747903,-0.517672
2013-01-02,-0.167043,-0.878004,0.312697,-1.119811
2013-01-01,-1.552774,0.307371,-0.114671,-0.406623
2013-01-05,-0.279355,0.948285,-0.909921,0.357762
2013-01-04,2.014769,1.47152,-3.926166,-0.864319


## 3. Selección (*indexing*)

Para código en produción, recomenda-se usar `loc`, `iloc`, `at`, `iat` (máis rápidos e claros).
A sintaxe básica é a seguinte:
```python
df.loc[filas, columnas]
df.iloc[filas, columna]
```
Onde:
- O primeiro argumento -> filas
- O segundo argumento -> columnas

Pola súa banda `at` e `iat` funcionan de forma parecida pero só admiten unha fila e unha columna, xa que son unha versión optimizada para devolver un *escalar*.



### Selección mediante o operador `[]`
O operador `[]` ten comportamentos diferentes en función do seu argumento:
- Unha cadea de texto `"A"`: devolve a columna correspondente como *Series*.
- Lista de cadeas `["A","B"]`: Devolve un *DataFrame* só con esas columnas.
- *Slice* de enteiros `0:3`: Devolve as filas correspondentes.
- Vector booleano `[True, False, False, True]`: Devolve as filas correspondentes a *True*.

In [26]:
# Selección por etiqueta de columna. unha columna → Series
df["A"]          

2013-01-01    0.198529
2013-01-02   -0.676725
2013-01-03    0.249794
2013-01-04    0.936736
2013-01-05   -0.359879
2013-01-06   -2.527784
Freq: D, Name: A, dtype: float64

In [38]:
# Recortado por posición de filas. Xera un novo DataFrame que é un subconxunto do anterior.
df[0:3]          

Unnamed: 0,A,B,C,D
2013-01-01,0.198529,-0.613499,0.865548,-2.31122
2013-01-02,-0.676725,0.528886,-1.325348,-0.075884
2013-01-03,0.249794,-1.156157,0.766323,0.449804


In [40]:
# Recortado por etiqueta de fila. Xera un novo DataFrame que é un subconxunto do anterior.
df["20130102":"20130104"]  

Unnamed: 0,A,B,C,D
2013-01-02,-0.676725,0.528886,-1.325348,-0.075884
2013-01-03,0.249794,-1.156157,0.766323,0.449804
2013-01-04,0.936736,0.413997,-1.208743,-0.173091


### Selección por **etiqueta**: `loc` / `at`

In [4]:
# Selección mediante vector booleano
df[[True,False,False,True, False, True]]

Unnamed: 0,A,B,C,D
2013-01-01,0.935814,-1.106669,1.082935,0.387564
2013-01-04,0.475739,-0.071542,0.734652,-1.560578
2013-01-06,-0.435495,0.565049,-0.451076,-1.271194


In [6]:
# Recordemos o noso df
df

Unnamed: 0,A,B,C,D
2013-01-01,0.935814,-1.106669,1.082935,0.387564
2013-01-02,0.002571,-0.610472,1.278957,2.823811
2013-01-03,-0.085514,-1.520154,-1.142194,-0.206655
2013-01-04,0.475739,-0.071542,0.734652,-1.560578
2013-01-05,-0.903796,-0.287035,-1.979621,0.498389
2013-01-06,-0.435495,0.565049,-0.451076,-1.271194


In [41]:
# Seleccionar unha fila por etiqueta
print (dates[0])
df.loc[dates[0]]

2013-01-01 00:00:00


A    0.198529
B   -0.613499
C    0.865548
D   -2.311220
Name: 2013-01-01 00:00:00, dtype: float64

In [31]:
# Seleccionar todas as filas con determinadas etiquetas de coluna:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2013-01-01,0.198529,-0.613499
2013-01-02,-0.676725,0.528886
2013-01-03,0.249794,-1.156157
2013-01-04,0.936736,0.413997
2013-01-05,-0.359879,-0.115182
2013-01-06,-2.527784,0.101102


In [32]:
# Seleccionar varias columnas para unhas filas en concreto
df.loc["20130102":"20130104", ["A", "B"]]

Unnamed: 0,A,B
2013-01-02,-0.676725,0.528886
2013-01-03,0.249794,-1.156157
2013-01-04,0.936736,0.413997


In [33]:
# Selecionar unha fila e unha columna en concreto -> Devolve un escalar.
df.loc[dates[0], "A"]

0.19852877566111138

In [34]:
# Función optimizada para acceso a escalares
df.at[dates[0], "A"]  

0.19852877566111138

### Selección por **posición**: `iloc` / `iat`

In [7]:
# Selecionamos a fila situada na posición 3 (empezando en 0)
df.iloc[3]

A    0.475739
B   -0.071542
C    0.734652
D   -1.560578
Name: 2013-01-04 00:00:00, dtype: float64

In [9]:
# Selección de rangos de filas e columnas. O primeiro rango representa as filas, o segundo as columnas. 
# O final dorango non se inclúe.
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,0.475739,-0.071542
2013-01-05,-0.903796,-0.287035


In [10]:
# Selección de filas e clumnas por posicións concretas. O primeiro rango representa as filas, 
#o segundo as columnas.

df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2013-01-02,0.002571,1.278957
2013-01-03,-0.085514,-1.142194
2013-01-05,-0.903796,-1.979621


In [11]:
# Selección de rango de filas. O operador ":" actúa de comodín.
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2013-01-02,0.002571,-0.610472,1.278957,2.823811
2013-01-03,-0.085514,-1.520154,-1.142194,-0.206655


In [None]:
# Selección de rango de columnas. O operador ":" actúa de comodín.
df.iloc[:, 1:3]

In [12]:
# Selección de fila e columnas concretas -> Devolve un escalar.
df.iloc[1, 1]

-0.6104715670370632

In [None]:
# Equivalente á anterior. Optimizada para escalares.
df.iat[1, 1]  # escalar rápido

## 4. Filtrado de datos por filas

In [14]:
# Selección de filas nas que se cumple unha determinada condición para unha columna en concreto
df[df["A"] > 0.5]

Unnamed: 0,A,B,C,D
2013-01-01,0.935814,-1.106669,1.082935,0.387564


In [15]:
# Selección de valores do DataFrame que cumplen unha determinada condición. 
# O resto figuran como NaN
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,0.935814,,1.082935,0.387564
2013-01-02,0.002571,,1.278957,2.823811
2013-01-03,,,,
2013-01-04,0.475739,,0.734652,
2013-01-05,,,,0.498389
2013-01-06,,0.565049,,


In [19]:
# A funcion isin permítenos facer "match" se o valor da celda coincide cun entre varios valores 
df2[df2["E"].isin(["test","train"]) ]

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo


## 5. Modificación de valores (setting)

In [3]:
# Asignar (engadir ou sobreescribir) unha Series a unha columna
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range("2013-01-02", periods=6))
df["F"] = s1
# Asignar un valor escalar a unha cela en concreto por etiquetas.
df.at[dates[0], "A"] = 0
# Asignar un valor escalara unha cela en concreto por posicións.
df.iat[0, 1] = 0
# Asignar un array de numpy (neste caso, un co valor "5" en todas as posicións
# e lonxitude igual á do DataFrame) a unha columna.
df.loc[:, "D"] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.746724,5.0,
2013-01-02,-1.091865,0.218459,0.364683,5.0,1.0
2013-01-03,0.349689,0.269348,-1.340883,5.0,2.0
2013-01-04,-0.44875,-0.775242,0.072446,5.0,3.0
2013-01-05,-0.689677,-0.349035,-0.753628,5.0,4.0
2013-01-06,0.549844,-0.4944,-1.384073,5.0,5.0


In [4]:
# Aplicar unha operación a todas as celas que cumplan unha condición.
# Neste caso pasamos o valor a negativo para todas as celas con valores positivos.

df2 = df.copy(); df2[df2 > 0] = -df2; df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.746724,-5.0,
2013-01-02,-1.091865,-0.218459,-0.364683,-5.0,-1.0
2013-01-03,-0.349689,-0.269348,-1.340883,-5.0,-2.0
2013-01-04,-0.44875,-0.775242,-0.072446,-5.0,-3.0
2013-01-05,-0.689677,-0.349035,-0.753628,-5.0,-4.0
2013-01-06,-0.549844,-0.4944,-1.384073,-5.0,-5.0


## 6. Tratamento de datos ausentes
Para os tipos de datos de *NumPy*, *nnp.nan* representa os datos ausentes. Por defecto ignóranse á hora de facer cálculos.
### reindexing 
Operación que permite cambiar a estrutura dun DataFrame aplicando un novo índice. Isto supón: 
- *reordenar* segundo o novo índice,
- *engadir etiquetas novas* enchendo esas filas e columnas con *NaN*
- *eliminando filas ou columnas con etiquetas* que non estean no novo índice.

In [5]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
df1.loc[dates[0]:dates[1], "E"] = 1
df1

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.69991,1.567781,-0.463695,0.117894,1.0
2013-01-02,-0.547647,2.601384,0.294401,-0.302136,1.0
2013-01-03,-0.638611,-0.237857,0.010749,-0.729269,
2013-01-04,1.01393,0.009305,0.079194,0.419951,


### dropna
Operación que permite eliminar filas ou columnas que conteñan datos ausentes (*NaN*). Parámetros importantes:
- `axis`: Indica que eliminar:
  - `axis=0` (por defecto): elimina filas.
  - `axis=1`: elimina columnas.
- `how`: criterio de eliminación.
  - `"any"` (por defecto): elimina se hai **polo menos un NaN**.
  - `"all"`: elimina se **todos os valores son NaN**.
- `tresh`: número mínimo de valores non nulos para manter a fila/columna.
- `subset`: limitar a comprobación a certas columnas.
- `implace`: Se é *True* modifica o DataFrame "in situ", se non crea unha copia

In [None]:
# Eliminar todas as filas ou columnas que conteñan un valor NaN
df1.dropna(how="any")

### fillna
Permite substituir os valores `NaN`por un valor constante, un cálculo ou valores veciños.
Algúns parámetros:
- `value`: valor ou dicionario que empregamos para substituír.
- `method` (deprecated): para cubrir propagando valores.
  -  `ffill` (forward fill): copia o valor anterior cara abaixo (substituído por `df.ffill()`).
  -  `bfill` (backward fill): copia o valor seguinte cara arriba (substituído por `df.bfill()`).
- `axis`: determina se se aplic por filas (0) ou columnas (1).
- `inplace`: se é *True* modifica o DataFrame "in situ", se non crea unha copia.
- `limit`: número máximo de `NaN`a cubrir consecutivamente.


In [6]:
# Substituír por un valor concreto
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.69991,1.567781,-0.463695,0.117894,1.0
2013-01-02,-0.547647,2.601384,0.294401,-0.302136,1.0
2013-01-03,-0.638611,-0.237857,0.010749,-0.729269,5.0
2013-01-04,1.01393,0.009305,0.079194,0.419951,5.0


In [13]:
# Substituir por columnas
df1.fillna(value = 2, axis=1)

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.69991,1.567781,-0.463695,0.117894,1.0
2013-01-02,-0.547647,2.601384,0.294401,-0.302136,1.0
2013-01-03,-0.638611,-0.237857,0.010749,-0.729269,2.0
2013-01-04,1.01393,0.009305,0.079194,0.419951,2.0


In [9]:
# Substituir con propagación.
df1.ffill()

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.69991,1.567781,-0.463695,0.117894,1.0
2013-01-02,-0.547647,2.601384,0.294401,-0.302136,1.0
2013-01-03,-0.638611,-0.237857,0.010749,-0.729269,1.0
2013-01-04,1.01393,0.009305,0.079194,0.419951,1.0


### isna 
Detecta valores ausentes. Devolve un *DataFrame* ou *Series* booleano coa mesma forma que o orixinal, onde:
- `True`se o valor equivalente no DataFrame orixinal é nulo.
- `False`en caso contrario

In [14]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,E
2013-01-01,False,False,False,False,False
2013-01-02,False,False,False,False,False
2013-01-03,False,False,False,False,True
2013-01-04,False,False,False,False,True


## 7. Operacións 
### Estatísticas
Estas son algunhas das principais operacións estatísticas:
- `describe()`: Resumo de estatísticas básicas.
- `mean()`: media aritmética.
- `median()`: mediana (valor central).
- `mode()`: moda (valores máis frecuentes).
- `std()`: desviación estándar.
- `var()`: varianza.
- `min()`/`max()`: mínimo/máximo.
- `quantile(q)`: percentís (exemplo, q=0.25 -> cuartil inferior).
- `mad(d)`: desviación absoluta media.
- `sum()`: suma dos valores.
- `cumsum()`: suma acumulada.
- `cumprod()`: produto acumulado.


In [15]:
# Resumo xeral:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.368382,1.03905,-0.396533,-0.191088
std,1.163026,1.357428,0.634776,0.440522
min,-1.69991,-0.237857,-1.201927,-0.729269
25%,-1.188724,-0.168417,-0.939365,-0.534393
50%,-0.593129,0.788543,-0.226473,-0.171645
75%,0.623536,2.282953,0.062083,0.078132
max,1.034042,2.601384,0.294401,0.419951


In [16]:
# Media por columna
df.mean()         

A   -0.368382
B    1.039050
C   -0.396533
D   -0.191088
dtype: float64

In [17]:
# Media por fila
df.mean(axis=1)    

2013-01-01   -0.119483
2013-01-02    0.511501
2013-01-03   -0.398747
2013-01-04    0.380595
2013-01-05    0.578076
2013-01-06   -0.827372
Freq: D, dtype: float64

In [25]:
# Media por fila para a fila en posición 2
df.mean( axis=1).iloc[2]

-0.3987470398597568

In [28]:
# Máximo/mínimo
print(df.max())
print(df.min())


A    1.034042
B    2.601384
C    0.294401
D    0.419951
dtype: float64
A   -1.699910
B   -0.237857
C   -1.201927
D   -0.729269
dtype: float64


- `idxmin()`: índice do valor mínimo.
- `idxmax()`: índice do valor máximo.
- `rank()`: rango de cada elemento respecto ao resto.

### Funcións definidas polo usuario
#### agg
- Serve para reducir os datos dunha columna a un único valor.
- Exemplo: media, suma, mínimo, máximo… ou unha función que ti definas.
- O resultado adoita ser unha Serie, onde cada columna do DataFrame foi reducida a un só valor.

In [29]:
df.agg(lambda x: np.mean(x) * 5.6)

A   -2.062938
B    5.818679
C   -2.220587
D   -1.070091
dtype: float64

#### transform
- Server para transformar os datos mantendo a forma do `DataFrame` orixinal.
- A función que pasas aplícase a cada elemento ou columna, pero o resultado ten que ter o mesmo tamaño que a entrada.
- Útil cando se quere escalar, normalizar ou modificar todos os valores mantendo a estrutura.

In [None]:
df.transform(lambda x: x * 101.2)

### Conteos e métodos de cadea
#### value_counts
Conta as ocorrencias de cada valor nunha `Series`.
Parámetros:
- `normalize=True`: devolve proporcións en vez de conteos.
- `sort=False`: mantén a orde orixinal dos valores.
- `ascending=True`: Ordena de menor a maior.
- `bins= ...`: Agrupa en intervalos.
#### métodos de cadea
`str`permite aplicar operacións de texto a cada elemento dunha `Series` sen necesidade de empregar bucles. Algúns métodos comúns:
- `str.lower()`: convirte todas as cadeas a minúsculas.
- `str.upper()`: convirte todas as cadeas a maiúsculas.
- `str.tittle()`: formato título.
- `str.replace("A","B")`: reemplaza todas as ocorrencias da cadea "A" por "B".
- `str.strip()`: elimina espazos.
- `str.split("a")`: divide a cadea por cada ocorrencia da subcadea "a".
- `str.get(pos)`: selecciona o caracter da posición `pos` (enteiro).
- `str[pos1..pos2]`: slice de caracteres entre as dúas posicións (teñen que ser enteiros).
- `str.isalpha()`: devolve `True` se contén exclusivamente caracteres alfabéticos.
- `str.isNumeric()`: devolve `True` se contén exclusivamente caracteres numéricos.
- `str.contains("subcadea")`: Devolve `True`se contén a subcadea especificada (admite regexp).

In [31]:
# Exemplo value_counts
s = pd.Series(np.random.randint(0,7,size=10))
s, s.value_counts()

(0    0
 1    4
 2    4
 3    3
 4    5
 5    6
 6    1
 7    5
 8    2
 9    1
 dtype: int64,
 4    2
 5    2
 1    2
 0    1
 3    1
 6    1
 2    1
 Name: count, dtype: int64)

In [35]:
# Exemplo str: pasar a minúsculas
s = pd.Series(["A","B","C","Aaba","Baca",np.nan,"CABA","dog","cat"]); s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

## 8. Combinación de datos de varias táboas
### Concatenación
`concat` serve para xuntar obxectos (`Series` ou `DataFrames`) ao longo dun eixo (filas ou columnas).
Parámetros:
- `axis`: Permite seleccionar se se concatena por filas (por defecto, 0) ou por columnas.

Na concatenación por columnas, se os índices non coinciden, `pandas` fai a unión polos índices (coma se fose unha chave), enchendo os ocos con `NaN`.


In [3]:
# Concatenar por filas (apilar)
df1 = pd.DataFrame({"A": ["A0", "A1", "A2"],
                    "B": ["B0", "B1", "B2"]})

df2 = pd.DataFrame({"A": ["A3", "A4", "A5"],
                    "B": ["B3", "B4", "B5"]})


res_filas = pd.concat([df1, df2], axis=0)
print(res_filas)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4
2  A5  B5


In [4]:
# Concatenar por columnas (lado a lado)
df3 = pd.DataFrame({"C": ["C0", "C1", "C2"]})
df4 = pd.DataFrame({"D": ["D0", "D1", "D2"]})


res_columnas = pd.concat([df3, df4], axis=1)
print(res_columnas)


    C   D
0  C0  D0
1  C1  D1
2  C2  D2


### Join
- `merge()` serve para facer combinacións entre dous `DataFrames`a partir dunha ou varias columnas clave.
- É equivalente ás operacións `JOIN` en SQL: `INNER`, `LEFT`, `RIGHT`, `OUTER`.
- A opción por defecto é `inner join`.

In [5]:
left = pd.DataFrame({"key":["foo","foo"], "lval":[1,2]})
right = pd.DataFrame({"key":["foo","foo"], "rval":[4,5]})
pd.merge(left, right, on="key")

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


In [6]:
left = pd.DataFrame({"key":["foo","bar"], "lval":[1,2]})
right = pd.DataFrame({"key":["foo","bar"], "rval":[4,5]})
pd.merge(left, right, on="key")

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


## 9. Groupby (split-apply-combine)
Os *agrupamentos* comprenden un ou varios dos seguintes pasos:
- **split**: "romper" os datos en grupos.
- **apply**: aplicar unha función a cada grupo por separado.
- **combine**: combinar os resultados nunha estrutura de datos.

In [13]:
# DataFrame de probas
dfg = pd.DataFrame({
    "A": ["foo","bar","foo","bar","foo","bar","foo","foo"],
    "B": ["one","one","two","three","two","two","one","three"],
    "C": np.random.randn(8),
    "D": np.random.randn(8),
})
dfg

Unnamed: 0,A,B,C,D
0,foo,one,1.137651,0.153132
1,bar,one,1.315243,2.959309
2,foo,two,-0.794658,0.299753
3,bar,three,1.983446,-0.397823
4,foo,two,1.387361,-0.03758
5,bar,two,-0.973921,-0.794055
6,foo,one,-0.638767,-0.282305
7,foo,three,-0.34654,1.481074


In [14]:
# Agrupamos pola columna A e calculamos as sumas das columnas C e D
dfg.groupby("A")[["C","D"]].sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,2.324768,1.767431
foo,0.745046,1.614074


In [15]:
# Agrupación por varios índices
dfg.groupby(["A","B"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.315243,2.959309
bar,three,1.983446,-0.397823
bar,two,-0.973921,-0.794055
foo,one,0.498883,-0.129173
foo,three,-0.34654,1.481074
foo,two,0.592702,0.262173


## 10. Reestruturación: `stack`/`unstack` e táboas dinámicas
A *reestruturacación* ou *reshaping* é un proceso que pode involucrar as seguintes operacións:
- `stack`: "apila" unha dimensión cara abaixo. Move un nivel (por defecto, columnas) ao *índice* reducindo anchura e alongando a táboa.
- `unstack`: "desapila" unha dimensión cara a dereita. Move un nivel do *índice* ás columnas, ensanchando a táboa.
- `pivot / pivot_table`: constrúen táboas cruzadas a partir de datos en formato *longo*.
- `melt / wide_to_long`: proceso inverso a `pivot`: pasa de formato *ancho* a *longo*.

### stack vs unstack

In [3]:
# Creamos un df con dous niveis de índice.
arrays = [
   ["bar","bar","baz","baz","foo","foo","qux","qux"],
   ["one","two","one","two","one","two","one","two"],
]
index = pd.MultiIndex.from_arrays(arrays, names=["first","second"])
dfh = pd.DataFrame(np.random.randn(8,2), index=index, columns=["A","B"])
df2h = dfh[:4]; df2h

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.4349,-0.441671
bar,two,-0.983878,-0.46773
baz,one,0.336854,0.624896
baz,two,-0.1651,0.095774


In [5]:
# Movemos as columnas A e B a un novo nivel do índice.
stacked = df2h.stack(future_stack=True)
stacked

first  second   
bar    one     A    0.434900
               B   -0.441671
       two     A   -0.983878
               B   -0.467730
baz    one     A    0.336854
               B    0.624896
       two     A   -0.165100
               B    0.095774
dtype: float64

Vamos a ver o comportamento de `unstack`. No noso caso o `DataFrame` ten tres niveis: 
- first (0)
- second (1) 
- columnas A e B (2).

Por defecto desapila o último nivel, que para este `DataFrame`é 2.

In [11]:
# Por defecto
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.4349,-0.441671
bar,two,-0.983878,-0.46773
baz,one,0.336854,0.624896
baz,two,-0.1651,0.095774


In [12]:
# Nivel 1
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,0.4349,-0.983878
bar,B,-0.441671,-0.46773
baz,A,0.336854,-0.1651
baz,B,0.624896,0.095774


In [13]:
# Nivel 0
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.4349,0.336854
one,B,-0.441671,0.624896
two,A,-0.983878,-0.1651
two,B,-0.46773,0.095774


### pivot vs pivot_table
Ambos métodos permiten pasar de formato *longo* a *ancho*.
- `pivot(index=..., columns=..., values=...)`: **Non agrega** os datos, polo que require que cada par `(index,columns)` sexa **único**. Se hai duplicados lanza erro.
- `pivot_table(values=..., index=..., columns=..., aggfunc='mean')`: **agrega** cando hai duplicados. É a máis usada. Parámetros:
  - `aggfunc`: `'mean'`, `'sum'`, `'count'`, `'list'` ou funcións personalizadas.
  - `fill_value`: enche baleiros (ex: `fill_value=0`).
  - `margins=True, margins_name='Total'`: engade totais por fila/columna.
  - `observerd=True`: con columnas/índices categ´roricos, limita as combinacións máis observadas.
  - `values`pode ser unha lista.

In [14]:
dfp = pd.DataFrame({
    "A": ["one","one","two","three"] * 3,
    "B": ["A","B","C"] * 4,
    "C": ["foo","foo","foo","bar","bar","bar"] * 2,
    "D": np.random.randn(12),
    "E": np.random.randn(12),
})
pd.pivot_table(dfp, values="D", index=["A","B"], columns=["C"])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.076682,2.133013
one,B,-0.730265,0.42778
one,C,0.425733,-2.012666
three,A,-1.60693,
three,B,,1.501329
three,C,-0.351071,
two,A,,0.885647
two,B,1.517366,
two,C,,-0.47845


### melt()
- Permite pasar de ancho a longo. Moi útil antes de facer `groupby`/`pivot_table`.
- Para volver a ancho: `pivot()` se non hai duplicados ou `pivot_table()` se os hai.

In [22]:
wide = pd.DataFrame({
    "id":[1,2,3],
    "D_foo":[0.5, 0.2, 0.1],
    "D_bar":[1.0, 0.0, 0.3],
})
print ("wide:")
display(wide)
long = wide.melt(id_vars="id", var_name="metric", value_name="val")
print ("long:")
display(long)
# Separas "D" e "foo/bar"
parts = long["metric"].str.split("_", expand=True)
long = long.assign(var=parts[0], cat=parts[1]).drop(columns="metric")
print ("nose:")
display (long)
# Volta a ancho (cada cat nunha columna)
back = long.pivot_table(index="id", columns="cat", values="val", aggfunc="first")
print ("Volta a wide:")
display (back)

wide:


Unnamed: 0,id,D_foo,D_bar
0,1,0.5,1.0
1,2,0.2,0.0
2,3,0.1,0.3


long:


Unnamed: 0,id,metric,val
0,1,D_foo,0.5
1,2,D_foo,0.2
2,3,D_foo,0.1
3,1,D_bar,1.0
4,2,D_bar,0.0
5,3,D_bar,0.3


nose:


Unnamed: 0,id,val,var,cat
0,1,0.5,D,foo
1,2,0.2,D,foo
2,3,0.1,D,foo
3,1,1.0,D,bar
4,2,0.0,D,bar
5,3,0.3,D,bar


Volta a wide:


cat,bar,foo
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.0,0.5
2,0.0,0.2
3,0.3,0.1


## 11.Series temporais: resampling e zonas horarias
Unha **serie temporal** é unha colección de *datos ordenados* no tempo, normalmente con intervalos fixos ou variables.
Exemplos típicos:
- O prezo dunha acción cada segundo.
- A temperatura rexistrada cada 10 minutos nun sensor meteorolóxico.
- O número de visitas a unha web cada hora.
- A produción dunha fábrica medida cada día.

En pandas, unha serie temporal é normalmente un Series ou DataFrame onde o índice é de tipo `DatetimeIndex`.

Isto permítelle a pandas recoñecer a dimensión temporal e aplicar operacións específicas: reescalado de frecuencia, ventás móbiles, manipulación de zonas horarias, etc.

### resampling
**Resampling** significa cambiar a **frecuencia temporal** da serie:
- **Downsampling**: pasar dunha frecuncia *alta* a unha *baixa* (Ex. datos cada segundo a datos cada 5 minutos).
- **Upsampling**: pasar dunha frecuencia *baixa* a unha *alta* (Ex: datos diariosa horarios).


In [23]:
# Exemplo de downsampling
rng = pd.date_range("2012-01-01", periods=100, freq="s")
ts = pd.Series(np.random.randint(0,500,len(rng)), index=rng)
ts.resample("5min").sum()

2012-01-01    21085
Freq: 5T, dtype: int64

### Zonas horarias
É habitual traballar con datos que veñen de diferentes zonhas horarias. Para traballar con estes datos é importante ter en consideración as seguintes operacións:
- `tz_localize("UTC")`: Engade información da zona horaria sen cambiar os tempos reais.
- `tz_convert("US/Eastern")`: convérteo a unha zona horaria, **desprazando os valores**.

In [25]:
rng = pd.date_range("2012-03-06 00:00", periods=5, freq="D")
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts_utc = ts.tz_localize("UTC")
print ("localize:")
print (ts_utc)
print ("convert:")
ts_utc.tz_convert("US/Eastern")

localize:
2012-03-06 00:00:00+00:00   -0.149625
2012-03-07 00:00:00+00:00    1.264901
2012-03-08 00:00:00+00:00   -0.116940
2012-03-09 00:00:00+00:00    1.081779
2012-03-10 00:00:00+00:00   -0.148750
Freq: D, dtype: float64
convert:


2012-03-05 19:00:00-05:00   -0.149625
2012-03-06 19:00:00-05:00    1.264901
2012-03-07 19:00:00-05:00   -0.116940
2012-03-08 19:00:00-05:00    1.081779
2012-03-09 19:00:00-05:00   -0.148750
Freq: D, dtype: float64

### Offsets e calendarios especiais
Pandas non só entende as unidades de tempo tradicionais, senón que tamén pode manexar **unidades de tempo intelixentes** chamadas *offsets*.

Exemplos.
- `pd.offsets.BussinessDay(5)`: 5 días laborables.
- `Monthend()`, `QuarterEnd()`, `YearBegin()`: saltan directamente ao fin/inicio dese periodo.
- `CustomBusinessDay(holidays=[...])`: podes definir o teu propio calendario (ex: incluir festivos locais).

In [26]:
# Exemplo: avanzar 5 días hábiles
rng + pd.offsets.BusinessDay(5)

DatetimeIndex(['2012-03-13', '2012-03-14', '2012-03-15', '2012-03-16',
               '2012-03-16'],
              dtype='datetime64[ns]', freq=None)

## 12. Datos categóricos
Un **categorigal** é un tipo de dato pensado para **variables categóricas**: valores dsicretos que pertencen a un **conxunto finito de categorías**.

Exemplos:
- **Nominais**: sen orde (Ex: `cor={vermello,verde,azul}`)
- **Orixinais**: con orde (Ex: `avaliacion={moi malo < malo < medio < bo < moi bo }`)

Vantaxes do seu uso:
- **Memoria**: gardan internamente un **array de códigos** + unha táboa de **categorías únicas**. Adoitan consumir moita menos memoria que a clase `object`.
- **Velocidade**: operacións como `groupby`, `value_counts`, `merge` sobre variables repetidas son máis rápidas.
- **Semántica**: podes fixar unha **orde lóxica** (non alfabética) das categorías e traballar con ela.

Internamente, unha `Series` categórica ten:
- `categories`: un `Index` con cadeas únicas.
- `codes`: enteiros que apuntan a estas cadeas.

In [None]:
# Exemplo: convertimos unha columna a categórico
dfc = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":["a","b","b","a","a","e"]})
dfc["grade"] = dfc["raw_grade"].astype("category")

# Renomear categorías:
dfc["grade"] = dfc["grade"].cat.rename_categories(["very good","good","very bad"])

# Reordenar e engadir categorías
dfc["grade"] = dfc["grade"].cat.set_categories(["very bad","bad","medium","good","very good"])
dfc.sort_values(by="grade")

Agrupar por categorías ten algunha pecularidade:
- `observer=False`: inclúe todas as categorías definidas, mesmo as non observadas nos datos.
- `observed=True`: amosa só as categorías presentes.

Isto último é util en informes nos que queren amosarse tamén as clases sen ocorrencias.

In [None]:
dfc.groupby("grade", observed=False).size()

## 13. Importación e exportación de datos
### Principais formatos de almacenamento de datos
#### CSV (Comma-Separated Values)
- **Texto plano**, tabular, sen **esquema** (non garda tipos de datos nin metadatos: todo son cadeas).
- **Portabilidade altísima**, lexible por case calquera ferramenta.
- **Desvantaxes**: perde tipos (p. ex., categorías, zonas horarias, booleanos), ocupa máis espazo e é máis **lento** en lectura/escritura; a inferencia de tipos pode fallar (p. ex., códigos postais con ceros á esquerda).
- **Uso típico**: intercambio universal, quick&dirty, exportacións para interoperabilidade.

#### Parquet
- Formato **binario e columnar** (garda por columnas): compresión eficiente, lecturas parciais por columnas.
- **Garda esquema** (tipos, nulos, categorías…), e adoita **preservar mellor os dtypes** ca CSV.
- **Moi rápido e compacto** para datos grandes; ideal para ciencia de datos, lagoas de datos, ETL.
- **Requisitos**: motor externo (`pyarrow` ou `fastparquet`) instalado.

#### Excel (XLSX)
- **Libro de cálculo** con follas, celdas, formato visual; é un contedor máis “rico”.
- **Máis pesado e lento** cá lectura/escritura de CSV/Parquet; non está pensado para *big data*.
- Útil cando o **destino é unha persoa** que o vai abrir en Excel, con follas nomeadas, etc.
- **Requisitos**: motores como `openpyxl` (lectura/escritura) e/ou `xlsxwriter` (escritura).

### Exportación de datos

#### CSV
Sintaxe básica:
```python
df.to_csv("arquivo.csv", index=True/False, sep='sep', encoding= 'encoding',compression='compression_format')               # por defecto: index=True, sep=",", header=True
```
Parámetros:
- **Index**: por defecto pandas **escribe o índice** como primeira columna. Se é un `RangeIndex` de 0..n-1, probablemente **non o queres** → usa `index=False`.
- **Separador**: `sep=","` por defecto; en moitos países úsase `sep=";"` (especialmente se a coma é separador decimal).
- **Codificación**: `encoding="utf-8"` (ou `"utf-8-sig"` se Excel che come o primeiro caracter), ás veces `"latin-1"`.
- **Compresión**: podes gardar comprimido, p. ex. `to_csv("foo.csv.gz", compression="gzip")`.


In [14]:
# Exemplo escritura a un arquivo csv
df.to_csv("out/arquivo.csv")

#### Parquet
A sintaxe básica para exportar a arquivo **parquet** é a seguinte:
```python
df.to_parquet("foo.parquet", index=True/False)             # columnar, comprimido por defecto (p.ex. snappy)
```
Consideracións:
- **Esquema**: garda dtypes, nulos, categorías e marcas temporais mellor ca CSV.
- **Índice**:
  - Se o índice é un `RangeIndex` “trivial”, pandas pode **omitilo** por defecto para aforrar espazo; por iso ao re-ler ves un DataFrame igual pero **sen columna ‘Unnamed: 0’**.
  - Se queres **preservar** un índice significativo, usa `index=True`.
- **Lectura por columnas** (selección de columnas) é moi rápida.
- **Particionado por columnas** (en directorios) é útil en lagoas de datos (p. ex. por `ano`, `mes`, `día`).

In [13]:
#Exemplo
df.to_parquet("out/foo.parquet")

#### Excel

Sintaxe básica:
```python
# Unha soa folla
df.to_excel("foo.xlsx", index = True/False, sheet_name="Sheet1")  # por defecto: index=True

#Varias follas
with pd.ExcelWriter("multi.xlsx") as xw:
    df.to_excel(xw, sheet_name="Data", index=False)
    (df.describe().T).to_excel(xw, sheet_name="Summary")
```
Consideracións:
- **Index**: igual ca CSV; se non o queres, `index=False`.
- **Várias follas**: usa `ExcelWriter`.
- **Formato**: se precisas estilo/formato, co motor `xlsxwriter` podes engadir formatos, pero lembra que pandas non é unha ferramenta de maquetación.

In [3]:
# Exemplo unha folla
df.to_excel("out/foo.xlsx")

# Exemplo varias follas
with pd.ExcelWriter("out/multi.xlsx") as xw:
    df.to_excel(xw, sheet_name="Data", index=False)
    (df.describe().T).to_excel(xw, sheet_name="Summary")

NameError: name 'df' is not defined

### Importar
#### CSV
Sintaxe básica:
```python
pd.read_csv("arquivo.csv", index_col=num, sep="sep", decimal="sep_decimal", usecols=[...],dtype={"col":"tipo"}, parse_dates=["data"], na_values= ["NA", ""],low_memory=False)

```
Consideracións:
- Ao **escribir**: `to_csv(..., index=False)` → non se crea columnade índice.
- Ao **ler**: `read_csv(..., index_col=0)` → úsase a primeira columna como índice (.
- **Inferencia de tipos**: CSV non garda dtypes; especifica `dtype=` cando sexa sensible (evitar erros e acelerar).
- **Datas**: sen esquema; usa `parse_dates=` (e, se procede, `dayfirst=True`).
- **Rendemento**: para ficheiros grandes, le en **chunks**:
  ```python
  it = pd.read_csv("foo.csv", chunksize=100_000)
  df = pd.concat(it, ignore_index=True)
  ```Ç


In [None]:
# Exemplos
pd.read_csv("out/foo.csv")
pd.read_csv("out/foo.csv", index_col=0)       # ler a primeira columna como índice
pd.read_csv("out/foo.csv", sep=";", decimal=",")
pd.read_csv("out/foo.csv", usecols=[...], dtype={"col": "string"}, parse_dates=["data"])
pd.read_csv("out/foo.csv", na_values=["NA", ""], low_memory=False)

#### Parquet
Sintaxe básica
```python
pd.read_parquet("foo.parquet")
pd.read_parquet("foo.parquet", columns=["colA", "colCC"])  # lectura selectiva por columnas
```

Consideracións:
- **Rendemento e fidelidade de tipos** son as grandes vantaxes.
- **Dependencias**: instala `pyarrow` (recomendado) ou `fastparquet`.


In [None]:
pd.read_parquet("out/foo.parquet")

#### Excel
Sintaxe básica:
```python
pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])
pd.read_excel("foo.xlsx", sheet_name=0, usecols="A:D", dtype={"col": "Int64"})
```

Consideracións:
- **Motores**: `openpyxl` é o estándar para XLSX.
- **NA e tipos**: Excel non ten un “esquema estrito”; especifica `dtype=` e `na_values=` se queres controlar a carga.
- **Datas**: Excel garda números en días dende unha orixe; `read_excel` fai a conversión, pero revisa TZ/offset se son críticas.

In [None]:
pd.read_excel("out/foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])
pd.read_excel("out/foo.xlsx", sheet_name=0, usecols="A:D", dtype={"col": "Int64"})

### Consideracións adicionais

- **CSV**:
  - `to_csv("foo.csv")` → escribiches o **índice por defecto**.
  - `read_csv("foo.csv")` **sen** `index_col=0` → o índice gardado convértese en **columna** `Unnamed: 0`.
  - Evitalo:
    - **A)** `df.to_csv("foo.csv", index=False)`
    - **B)** `pd.read_csv("foo.csv", index_col=0)`

- **Parquet**:
  - `to_parquet("foo.parquet")` → pode **omitir** o RangeIndex; ao ler, non aparece `Unnamed: 0`.
  - As columnas reaparécense tal cal.

- **Excel**:
  - `to_excel(...)` por defecto **escribe índice**; ao ler, verás `Unnamed: 0` se non indicas `index_col=0`.
  - Igual ca CSV: **ou non o escribes** (`index=False`) ou **o usas como índice** ao ler (`index_col=0`).

---

### Boas prácticas

- **Se non precisas índice no disco**:
  - CSV/Excel → `index=False`
  - Parquet → por defecto; ou `index=False` explícito
- **Controla os tipos ao ler texto**:
  - `dtype=`, `parse_dates=`, `na_values=`, `usecols=`
- **Rendemento e fidelidade**:
  - Datos grandes → **Parquet**
  - Intercambio humano/ofimático → **Excel**
  - Intercambio universal/plano → **CSV** (coidado cos tipos)
- **Compresión**:
  - CSV: `compression="gzip"` (ou nome `.gz`)
  - Parquet: compresión columnar por defecto (p.ex. Snappy)
- **Datas e zonas horarias**:
  - CSV/Excel: poden **perder TZ**; Parquet adoita preservalas mellor
- **Categoricals**:
  - CSV: reverterán a `object` ao ler (a non ser que recastes)
  - Parquet: adoita **preservar** mellor as categorías


In [None]:
df_io = pd.DataFrame(np.random.randint(0,5,(10,5)))
# df_io.to_csv("foo.csv", index=False)
# pd.read_csv("foo.csv")
# df_io.to_parquet("foo.parquet")
# pd.read_parquet("foo.parquet")
# df_io.to_excel("foo.xlsx", sheet_name="Sheet1")
# pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])
df_io.head()

## Gotchas (cousas a ter en conta)

Se fas unha operación booleana sobre unha `Series`/`DataFrame` directamente nun `if`, verás un erro de ambigüidade.
Usa `.any()`, `.all()`, `.empty`, etc.

In [None]:
# if pd.Series([False, True, False]):
#     print("I was true")
# s = pd.Series([False, True, False])
# if s.any():
#     print("Hai polo menos un True")