# Exemple pandas

## Lectura, tipus de dades i duplicats

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

%matplotlib inline

Treballarem amb una llista de noms extrets de https://www.idescat.cat/noms/

Mira el fitxer `data/noms.csv` i llegeix-lo amb `pd.read_csv`. Tingues en compte el separador i les primeres línies de text que no ens interessen

In [None]:
df = pd.read_csv("data/noms.csv")

Renombra les dues últimes columnes a "freq" i "permil"

El primer que cal fer és mirar les dades a mà, per saber què contenen.

En quin format està llegint les dades pandas? (`object` ve a ser `string`)

Veiem que el rànquing de freqüència és un nombre real en comptes d'un enter,  i el rànquing en tant per mil no el reconeix com a numèric (per què?). 

Ho podem arreglar modificant les columnes

In [None]:
df.info()

In [None]:
df["freq"] *= 1000
df = df.astype({"freq": int})
df["permil"] = pd.to_numeric(df["permil"].str.replace(",", "."))
df.head()

In [None]:
df.info()

In [None]:
df.describe()

Si ja sabem que totes les columnes tenen el mateix format, podem directament dir-li a pandas com es marquen els decimals i els milers. Busca com.

Hi ha algun nom duplicat a les dades? Quin(s)?

## Neteja la columna `Nom`

Hi ha algún valor nul? Mira què li passa

**Nota**: `.isna()` is `.isnull()` són exactament el mateix

Veiem que hi ha un nom que es llegeix com a NaN (Not a Number). Si anem a veure les dades el nom és "NA", que pandas interpreta com a NaN.
Ho podem solucionar passant l'argument `keep_default_na=False` a `pd.read_csv`

In [None]:
df = pd.read_csv("data/noms.csv", sep=";", skiprows=7, decimal=",", thousands=".", keep_default_na=False)
df[df.Nom.isna()]

In [None]:
df.iloc[6334]

Molts noms tenen dues o més opcions d'escriptura, amb accent o sense; amb accent obert o tancat, etc.

En podem veure la distribució i casos en particular:

In [None]:
plt.hist(df["Nom"].str.split("/").str.len())
plt.yscale("log")

In [None]:
df[df["Nom"].str.contains("/")]

Per ara optarem per quedar-nos sempre amb una sola opció (la primera). 
A més ho passem tot a minúscules i treiem els accents.
Modifica la columna "Nom" per complir-ho

## Posa-ho tot junt:

Guarda les dades netes a un altre fitxer.

`index=False` evita guardar la primera columna (índex)

In [None]:
df_net.to_csv("data/noms_net.csv", index=False)

I el podem rellegir i comprovar que tenim les mateixes dades

In [None]:
df2 = pd.read_csv("data/noms_net.csv", keep_default_na=False)
(df == df2).all()