<div align="right">

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/wisaaco/TallerPythonFEE/blob/main/lessons/2/1_Pandas_Seleccio.ipynb)

Si no funciona el botó podeu copiar el següent [enllaç](https://colab.research.google.com/github/wisaaco/TallerPythonFEE/blob/main/lessons/2/1_Pandas_Seleccio.ipynb)
</div>

# 3 - Estructura del dataframe

Ara que ja sabem carregar dataframes de fitxers, descobrirem com podem accedir a l'informació que es troba dins de l'estructura de dades.

Començarem seleccionant columnes i obtenint resums estadístics d'elles. Més endavant passarem a fer seleccions de files del dataframe. Finalment, realitzarem seleccions combinades creant els nostres propis dataframes a partir dels subconjunts seleccionats.

In [None]:
#Seguirem emprant la llibreria pandas i el dataset WHO

import pandas as pd

df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") # carregam un dataframe

## Columnes

Com hem comentat a l'introducció, començarem fent feina amb les columnes

In [None]:
# Columnes o caracteristiques de cada mostra
print(df_who.columns)

In [None]:
for col in df_who.columns:
    print(col)

Ja coneixem els dataframes, la segona estructura de dades que més empram a Pandas és la serie:

In [None]:
df_who["Country"]

Un cop seleccionam una columna podem accedir als seus elements com si fossin una llista:

In [None]:
print(df_who["Country"][0])
print("-"*30)
print(df_who["Country"][:5])
print("-"*30)
print(df_who["Country"].values)

 Existeix una altra manera més simple de seleccionar una única columna, ja que podem trobar noms de columnes molt llargs: "Children aged &lt;5 years who received any antimalarial treatment for fever (%)"

**Nota**: Per tant, en la creació de documents és important un adequat nom de columnes!!

In [None]:
df_who.Country

In [None]:
print(df_who.columns[9])
print("-"*30)
print(df_who[df_who.columns[9]])


Aquí també podem emprar l'*slicing*, per seleccionar múltiples columnes.

In [None]:

df_who[df_who.columns[0:5]]


I també podem seleccionar diverses columnes si coneixem el seu nom, veiem que Pandas és molt flexible:

In [None]:
df_who[["CountryID","Continent"]]

### Estadístics

En seleccionar una columna d'un dataframe obtenim una sèrie. Podem obtenir estadístics d'aquesta sèrie de manera molt senzilla:


In [None]:
fertilitat = df_who[df_who.columns[3]]
print("Min ", fertilitat.min())
print("Max ", fertilitat.max())
print("Mean ", fertilitat.mean())

A continuació trobareu la taula que mostra les funcions descriptives que tenim disponibles:
<img src="https://i.imgur.com/OYnOFwL.png">

Veurem que obtenir aquestes informacions estadístiques ens pot ajudar a extreure informació molt concreta de la taula, per exemple, si volem saber:

**¿Quin pais té la major emissió de CO2 ?**

In [None]:
co2 = df_who["Total_CO2_emissions"]
row = df_who[co2 == co2.max()]  # Selecció condicionada
type(row)

La variable row conté la fila amb el valor màxim a la columna "Total_CO2_emissions"

In [None]:
print(row["Country"])

In [None]:
row["Country"].values

In [None]:
print("El pais mas contaminante es: ", row["Country"].values[0])

## Files

Cada fila té un índex. L'índex pot ser numèric, alfabètic o de temps.

In [None]:
df_who.index

In [None]:
df_who.index.values

### El mètode `loc`

Emprant el mètode  `loc` del dataframe podem accedir a les seves files amb la mateixa lògica que ja coneixem per les llistes:

In [None]:
df_who.loc[0] #la mostra zero, primera fila

In [None]:
type(df_who.loc[0]) # una fila també és una sèrie

In [None]:
print(df_who.loc[0].Country) # Podem accedir a una sèrie amb el seu índex
print(df_who.loc[0][0]) #o amb la seva posició
print(df_who.loc[0][3])

Com passava amb les llistes també podem seleccionar diversos elements (files) en una sola comanda usant la tècnica de _slicing_.

In [None]:
df_who.loc[166:170] #slicing

In [None]:
# Els índexs són útils quan són dates: Sèries temporals
# per exemple:
# df.loc["2020":"2022"]

### Selecció condicional

Si volem que la nostra selecció es correspongui amb un criteri lògic, per exemple saber quins són els països amb una taxa d'alfabetització dels adults amb més d'un 70% podem fer el següent:

In [None]:
alfabetitzacio = df_who[df_who['Adult literacy rate (%)'] > 70][["Country","Adult literacy rate (%)"]]

alfabetitzacio[alfabetitzacio["Country"] == "Italy"]

L'estructura d'aquest tipus de selecció sembla complexa, però si la dividim en parts veurem que és abordable:

In [None]:
# En aquest codi obtenim una llista de valors booleans (True o False) segons és compleix la condició per cada una de les files:
seleccio = df_who['Adult literacy rate (%)'] > 70

In [None]:
# En aquest codi, de les files on seleccio == True agafam les dues columnes que ens interessen
df_who[seleccio][["Country","Adult literacy rate (%)"]]

Aquest tipus de selecció ens obre tot un nou ventall de possibilitats de selecció "automàtica" de dades que fins ara es feia molt complicat.



## Files i columnes

Obviament, si sabem seleccionar files i columnes, podem combinar-les per fer una selecció més específica.

In [None]:

df_who.loc[167:169, ["Country","Total_CO2_emissions"]] # per noms

### El mètode *iloc*
No sempre ens serà còmode fer seleccions amb els noms de les files (encara que normalment siguin nombres) i de les columnes. Si volem fer seleccions emprant només els índexs podem emprar el mètode `.iloc[files, columnes]`:

In [None]:
df_who.iloc[[168,192],[0,43,118]] # per posicions

## Activitat

En aquesta activitat practicarem la selecció de dades (columnes i files) en un dataframe

**1) Quina és la mitjana de la població urbana ("Urban_population") de tots els països? La seva desviació típica (std)?**

**2) Consulta la fila del país: “Spain”**

**3a) Quin país té una població urbana més gran?**
**3b) Quins països tenen una població urbana menor a 50.000 ?**

**4) El continent on està situat Spain és el mateix que el d'UnitedStates?**

Utilitza una condició per obtenir un resultat Booleà (*True* o *False*)

**5) Quins són els cinc països més contaminants ("Total_CO2_emissions")?**

Aquesta és la meva [pista per a una solució elegant](http://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.DataFrame.sort_values.html)

**6) Observant algunes mostres del fitxer pots establir la relació entre l'identificador del continent i el seu nom?**

És a dir, sabem que Spain és al continent Europeu i el codi del continent és el 2.

Hi ha els codis de continents: 1, 2, 3, 4, 5, 6, 7

**Nota:** Hi ha dos codis associats a Àsia.

Fes les consultes pertinents al dataframe per construir un diccionari amb la següent

In [None]:
codigoContinentes = {1:"Asia",2:"Europa"} #Al menos hay 7!
print(codigoContinentes[2])

In [None]:
codigoContinentes[3] = ""
codigoContinentes[4] = ""
codigoContinentes[5] = ""
codigoContinentes[6] = ""
codigoContinentes[7] = ""

[![License: CC BY 4.0](https://img.shields.io/badge/License-CC_BY_4.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) <br/>
Isaac Lera and Gabriel Moya <br/>
Universitat de les Illes Balears <br/>
isaac.lera@uib.edu, gabriel.moya@uib.edu