## Introducció

### Pandas

Pandas és la llibreria més popular de Python per a l'anàlisi de dades. 

No podeu treballar amb dades si no les podeu llegir. En esta secció aprendrem a crear dades de forma estructurada, així com treballar amb dades preexistents.

Per començar a treballar amb pandas, el primer pas serà importar la llibrería. Al no formar part de les llibreries estàndar de Python, l'hauràs d'instal·lar (sobre l'entorn desitjat) amb:

```python
conda install pandas
```

Normalment, al igual que amb numpy, es comença amb:

In [1]:
import pandas as pd

### Creació de dades

El dos objectes que formen el nucli de pandas són **DataFrame** i **Series**.

#### DataFrame

Un DataFrame és una taula. Conté un array de valors. Cada valor està situat en una coordenada donada per la seua fila i la seua columna.

In [2]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


A diferència de numpy, pot contindre valors no numèrics:

In [3]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


Estem utilitzant pd.DataFrame() per generar els objectes DataFrame. La sintaxi per declarar-los és un diccionari de Python on les claus seran el nom de les columnes i els valors són les llistes d'entrada de cada clau.

El constructor de tious diccionari assigna a les files els valors 0, 1, 2,... per a les etiquetes de fila. En la majoria de casos pot ser útil, però podem assignar etiquetes a cada fila.

La llista d'etiquetes de fila s'anomena **Index**, i és el paràmetre que podem utilitzar per assignar els seus valors:

In [4]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


#### Series

Una Serie, per contra, és una seqüència de valors. Si un DataFrame és una taula, una Serie és una llista. I en realitat, pots crear una serie passant una llista de valors:

In [5]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Una Serie és, bàsicament, una columna d'un DataFrame. Igual que al DataFrame, pots assignar etiquetes a les files de cada Serie passant el paràmetre index. No obstant, una Serie no té un nom de columna, sinó simplement un nom general:

In [6]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

Com hauràs pogut deduir, les Series i els DataFrame estan molt relacionats, podent pensar que un DataFrame és un conjunt de Series unides. Ho veurem més endavant.

### Llegint dades d'arxius

La majoria de vegades no volem crear les dades manualment, sinó que volem treballar amb dades que ja existeixen.

Les dades poden estar allotjades en diferents formats, però una de les formes més freqüents i bàsiques és en format d'arxiu separat per comes o CSV.

```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```

Per crear un DataFrame a partir d'un CSV utilitzarem la funció `pd.read_csv()`.

In [None]:
directory = os.path.dirname(__file__)
resource_path = os.path.join(directory,"..","data",)
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv")