<div align="right">

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.png)](https://colab.research.google.com/github/wisaaco/TallerPythonEBAP/blob/main/lessons/6_Altres_Operacions.ipynb)

Si no funciona el botó podeu copiar el següent [enllaç](https://colab.research.google.com/github/wisaaco/TallerPythonEBAP/blob/main/lessons/6_Altres_Operacions.ipynb)

</div>

# 6 - Pandas: altres particularitats



## Activitats d'escalfament
Abans de començar repassarem el que hem fet fins ara amb aquestes activitats:

In [None]:
import pandas as pd
import numpy as np
# Dades generades de manera aleatòria
data = {
    'pais': ['Argentina', 'Brasil', 'Canadá', 'China', 'Alemania', 'India', 'Japón', 'México', 'Nigeria', 'Rusia'],
    'continente': ['América del Sur', 'América del Sur', 'América del Norte', 'Asia', 'Europa', 'Asia', 'Asia', 'América del Norte', 'África', 'Europa'],
    'poblacion': [45376763, 213823154, 38131104, 1395380000, 83149300, 1380004385, 126150000, 130222815, 206139587, 144096812],
    'pib': [637.717, 2055.51, 1610.07, 16624.05, 4644.83, 2697.22, 4930.61, 1079.24, 514.049, 1630.03],
    'contaminacion': [12.40, 9.69, 15.04, 7.57, 9.35, 17.70, 9.70, 14.87, 6.66, 11.14]
}

df_fictici = pd.DataFrame(data)

Mostra la població dels països d'Àsia.
Quina és la contaminació mitjana per continent?
Quin continent té més població?

In [None]:
# Mostra la població dels països d'Àsia.


In [None]:
# Quina és la contaminació mitjana per continent?


In [None]:
# Quin continent té més població?


In [None]:
# Cream noves dades, més endavant en la sessió d'avui explicarem aquest codi
membres_onu = ['Argentina', 'Brasil',  'China', 'Alemania', 'India', 'Japón' ] #Datos ficticios!
df_fictici['miembro_onu'] = df_fictici['pais'].apply(lambda x: 'Sí' if x in membres_onu else 'No')

Quin és el PIB mitjà per continent i per membres a l'ONU?

## Funcions Lambda

Aquestes són funcions anònimes (sense nom) petites i temporals que es poden utilitzar per aplicar operacions senzilles als elements d'un objecte de Pandas, com una sèrie o un DataFrame.

L'estructura bàsica d'una funció lambda és la següent: `lambda arguments: expressió`
On:
- arguments són els arguments que es passen a la funció lambda.
- expressió és una expressió única que defineix l'operació que volem realitzar amb els arguments.

Començarem aquest aprenentatge amb les següents dades:


In [None]:
import pandas as pd
from tabulate import tabulate # Nova llibreria

df = pd.read_csv("data/data_groups.csv") # Atenció: Dades creades aleatòriament !!

print(tabulate(df.head(), headers='keys')) 


Veurem com podem emprar-les juntament amb la funció `map` per canviar els valors de una columna d'una manera senzilla i consistent:

In [None]:
df.Genere.map(lambda x: "Masculi" if x=="M" else "Femeni")

En aquest cas canviarem el tipus de dades de la columna:

In [None]:
df.Punts.map(lambda x: "Superat" if x>50 else "NP")

## Categorització de dades

#### Funció cut
La funció `cut` de Pandas és una eina útil per a la segmentació i la discretització de les dades en intervals o categories. Aquesta funció és especialment útil quan voleu convertir una variable numèrica contínua en una variable categòrica, dividint-la en intervals o categories específiques.

[Documentació](https://pandas.pydata.org/docs/reference/api/pandas.cut.html)

Crearem un dataframe nou per poder fer proves:

In [None]:
import numpy as np
np.random.seed(0)
df_random = pd.DataFrame({"candidat":np.arange(1,11), "nota":np.random.randint(0,11,size=10)})
df_random


A continuació crearem una nova columna que conté una nota en escala categòrica:

In [None]:
df_random["notaCategorica"] = pd.cut(df_random.nota, 3, labels=["dolent", "mig", "bona"])
df_random

In [None]:
df[df.notaCategorica==df.notaCategorica.max()]

A l'exemple anterior tenim un problema, i és que les categoríes que hem obtingut no contemplen el valor 10 de nota. Anem a arreglar-ho:

In [None]:
bins = [0, 4, 7, 8.5, 10]
labels = ['Suspens', 'Be', 'Notable', 'Excel·lent']
df_random["notaCategorica"] = pd.cut(df_random.nota, bins, labels=labels) # include_lowest=True
df_random

#### Funció qcut
La funció `qcut` de Pandas és una eina que permet la discretització de dades numèriques en intervals o quantils de manera que cada interval tingui aproximadament el mateix nombre d'observacions. Això fa que sigui útil quan es volen crear intervals amb una distribució semblant de dades, especialment en anàlisis estadístics.

[Documentació](https://pandas.pydata.org/docs/reference/api/pandas.qcut.html#pandas.qcut)

Tornam a generar dades:

In [None]:
import numpy as np
marks = np.arange(0,1.1,0.25)
print(marks)
print
print("-"*10)
factors = pd.qcut(df_random.nota, marks)
print(factors)
print("-"*10)
pd.value_counts(factors)

## Valors desconeguts NaN, None, NaT

Els valors desconeguts `NaN`, `None` i `NaT` són elements que es poden trobar en els dataframes i que indiquen que les dades no existeixen o no estan disponibles. Cadascun d'aquests valors s'utilitza en un context específic:

- `NaN` (Not a Number): NaN és una representació especial per als valors numèrics que no són vàlids o no estan disponibles. Es fa servir principalment en sèries o dataframes amb dades numèriques. Quan realitzem operacions matemàtiques o estadístiques en dades que contenen `NaN`, el resultat sovint serà `NaN`. Per a identificar `NaN` en Pandas, pots utilitzar la funció `pd.isna()` o `pd.isnan()`.

- `None`: `None` és una constant especial en Python que s'utilitza per representar la manca d'un valor o la no disponibilitat d'una variable. Per verificar si un valor és `None`, pots utilitzar l'operador d'igualtat (`==`) o la funció pd.isna().

- `NaT` (Not a Timestamp): `NaT` és una representació especial per als valors de data i hora (datetime) que no estan disponibles o no estan definits. Aquest valor s'utilitza principalment en columnes que contenen dates i hores. Pots identificar `NaT` utilitzant la funció `pd.isna()` o `pd.isnull()` en columnes de dates.

Emprant el fitxer WHO.csv:


1. Contabiliza cuántos paises tienen algún valor NaN en cualquiera de sus columnas.
2. ¿Cuál es el país con mayor número de muestras desconocidas?

Les operacions de _Pandas_ es troben preparades per treballar amb aquests valors faltants, per observar-ho consultarem la documentació de l'operació de [suma](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html#pandas.DataFrame.sum).

Per altra banda, la mateixa llibreria ens permet inferir i substituir aquests valors amb altres:

De manera general podem dir que tenim 2 opcions:

- [fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html): Basicament substitueix els valors `Nan` per una constant o pel valor de la fila/columna anterior.
- [interpolate](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html) Omple els valors `NaN` mitjançant un mètode d'interpolació. Té sentit en sèries temporals amb observacions properes.

Una altra tècnica que també es pot usar (encara que pot ser perillosa) és la d'eliminar aquelles files i columnes que contenen aquest tipus de valors: [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html).

Per tenir més informació d'aquest tema podeu llegir la [documentació](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data)


Seleccionar la columna `Adult literacy rate (%)`:

- Quants valors `Nan` conté?
- Quina és la mitjana de tots els països del mòn?
- Quina és la mitjana per continent?
- Substitueix els valors `Nan` per zeros. Quina és la nova mitjana per continent?
- Substitueix els valors `Nan` pel valor anterior. Quina és la nova mitjana per continent?
- Substitueix els valors `Nan` per la mitjana del continent

In [None]:
# Posar el vostre codi

## Sèries Temporals
Les sèries temporals són mostres de valors preses al llarg d'un temps amb un mostreig generalment equidistant. Per exemple, informació econòmica, demografia, meteorològica; registres de seguretat, activitat, etc.

La llibreria Pandas gestiona les sèries temporals usant l'índex: una data (`datetime`):

L'índex d'un _dataframe_ és el pilar bàsic d'accés als valors, per la qual cosa el seu ús simplifica processos de filtratge, selecció, interpolació, etc.

Enllaç a la documentació: [TimeSeries](https://pandas.pydata.org/docs/user_guide/timeseries.html)

En aquesta secció començarem a treballar amb sèries temporals, començarem inspeccionant un conjunt de dades:

In [None]:
import pandas as pd
df = pd.read_csv("data/rdu-weather-history.csv",sep=";")  
#Sempre començam inspeccionant el fitxer
df.head()

In [None]:
df.describe()

In [None]:
print(list(df.columns))

Observarem el que ens interessa. Quan comença? Quan acaba?

Nosaltres només cobrirem els aspectes bàsics d'aquests tipus de dades, el que volem és poder contestar qüestions similars a les següents:
- Com podria obtenir la temperatura mitjana d'un any?
- Com podria obtenir la temperatura més alta de tots els mesos de juliol?

En primer lloc, ens interessa transformar l'index en una Data:

In [None]:
from pandas import DatetimeIndex
df.index = DatetimeIndex(df["date"])

df.head()

Veiem que ara tenim 2 cops la informació repetida, l'índex i la columna `date`. Sabries com eliminar aquesta columna?

Podem obtenir informació de l'index: any, mes dia

In [None]:
df.index.year  # prova-ho amb els mesos (month) i els dies (day)

Podem fer seleccions concretes. Emprant la funció `loc` podem seleccionar emprant les dates:

In [None]:
# any i mes
df.loc["2015-07"]

In [None]:
# any
df.loc["2015"]

Seguim amb la capacitat de fer seleccions lògiques:

In [None]:
df.loc["2015"].temperaturemin.min() > df.loc["2016"].temperaturemin.min()

In [None]:
df.loc["03/2015"].temperaturemin

I també fer seleccions de columnes i d'obtenir informació de resum:

In [None]:
print(df.loc["03-2015"]["temperaturemin"]) # seleccionam columna en data
print(df.loc["03-2015"].temperaturemin.min()) # mínim

Com hem vist, la principal diferència en les sèries temporals és l'ús d'un índex diferent. Ara ens trobem en condicions de respondre a les següents preguntes:

### Activitats

Quantes vegades ha nevat cada any?

Imprimeix per pantalla quin any ha nevat més (`snowdepth`)

Crea un dataframe que contengui la temperatura màxima del juliol de cada any.

Fes una agrupació que contengui les temperatures màximes i mínimes de cada mes de cada any.

Ara proposarem un parell més d'exercicis que ens obligaran a emprar els continguts inicials de la sessió:

- Crea una nova columna en el dataframe anomenada `ha_nevat` que indiqui si ha nevat o no. Has d'emprar una funció lamda.

Volem discretitzar la variable `snowfall` per poder tenir 4 categories de nevada.

En primer lloc, intenta emprar la funció `qcut` per fer aquesta categorització en grups de valor similar. Fes una prova i analitza per quin motiu aquesta no és la millor opció.

Ara crea 4 categoríes emprant la funció `cut`:

[![License: CC BY 4.0](https://img.shields.io/badge/License-CC_BY_4.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) <br/>
Isaac Lera and Gabriel Moya <br/>
Universitat de les Illes Balears <br/>
isaac.lera@uib.edu, gabriel.moya@uib.edu