<div align="right">

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/wisaaco/TallerPythonEBAP/blob/main/lessons/3_Pandas_Estructura.ipynb)

Si no funciona el botó podeu copiar el següent [enllaç](https://colab.research.google.com/github/wisaaco/TallerPythonEBAP/blob/main/lessons/3_Pandas_Estructura.ipynb)
</div>

# 3 - Pandas: estructura del dataframe

Ara que ja sabem carregar dataframes de fitxers, descobrirem com podem accedir a l'informació que es troba dins dels tipus de variable fet servir per Pandas.

Un dataframe té columnes i files. Les files són mostres i les columnes representen característiques d'una mostra. Una columna és del tipus Sèrie.

**L'objectiu d'aquesta unitat és adquirir eines per entendre i seleccionar les dades representades a un dataframe i a una sèrie amb Pandas.**


Començarem seleccionant columnes i obtenint resums estadístics d'elles. Més endavant passarem a fer seleccions de files del dataframe. Finalment, realitzarem seleccions combinades creant els nostres propis dataframes a partir dels subconjunts seleccionats.

In [2]:
#Seguirem emprant la llibreria pandas

import pandas as pd

df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") #dataframe

In [None]:
df_who.info()

In [None]:
df_who.describe()

## Columnes

Com hem comentat a l'introducció, començarem amb les columnes

In [None]:
# Columnes o caracteristiques de cada mostra
print(df_who.columns)

In [None]:
for col in df_who.columns: #label
    print(col)

Access als valors d'una columna: sèrie

In [None]:
df_who["Country"] 

In [None]:
type(df_who["Country"])

Un cop seleccionam una columna podem accedir als seus elements com si fossin una llista:

In [None]:
print(df_who["Country"][0])
print("-"*30)
print(df_who["Country"][:5]) # slicing
print("-"*30)
print(df_who["Country"].values)

 Existeix una altra manera més simple de seleccionar una única columna pero hi ha noms de columnes molt llargues: "Children aged &lt;5 years who received any antimalarial treatment for fever (%)"

**Nota**: En la creació de documents és important un adequat nom de columnes

In [None]:
df_who.Country

In [None]:
print(df_who.columns[9])
print("-"*30)
print(df_who[df_who.columns[9]])


In [None]:
# Podem agafar multiples columnes
df_who[df_who.columns[0:5]]


In [None]:
df_who[["CountryID","Continent"]]

In [None]:
# Podem accedir a les columnes amb la seva posició en lloc del nom
# funció: .iloc(files, columnes)
df_who.iloc[:,3:5]

In [None]:
# o a un subconjunt específic
df_who.iloc[:,[3,5,9]]

### Sèries i mètodes estadístics

En seleccionar una columna d'un dataframe obtenim una sèrie. Les sèries tenem certes característiques com l'aplicació de mètodes estadístics (sí és una sèrie numèrica).


In [None]:
fertilitat = df_who[df_who.columns[3]]
print("Min ", fertilitat.min()) # a Pandas el concepte d'iterar "no té sentit"
print("Max ", fertilitat.max())
print("Mean ", fertilitat.mean())

A continuació trobareu la taula que mostra les funcions descriptives que tenim disponibles:
<img src="https://i.imgur.com/OYnOFwL.png">

Veurem que obtenir aquestes informacions estadístiques ens pot ajudar a extreure informació molt concreta de la taula, per exemple, si volem saber:

**¿Quin pais té la major emissió de CO2 ?**

In [None]:
co2 = df_who["Total_CO2_emissions"]
row = df_who[co2 == co2.max()]  # Selecció condicionada *
type(row)

La variable row conté la fila amb el valor màxim a la columna "Total_CO2_emissions"

In [None]:
print(row["Country"])

In [None]:
row["Country"].values

In [None]:
print("El pais mas contaminante es: ", row["Country"].values[0])

Podem fer seleccions aleatories d'una serie

In [None]:
fertilitat = df_who[df_who.columns[3]]
some = fertilitat.sample(n=3)
print(some)
fertilitat.sample(n=3,random_state=2023) #on random_state és la llavor/seed del aleatori

## Files

Cada fila té un índex. L'índex pot ser numèric, alfabètic o de temps.

In [None]:
df_who.index

In [None]:
df_who.index.values

Emprant el tribut  `loc` del dataframe podem accedir a les seves files amb la mateixa lògica que empram a les llistes:

In [None]:
df_who.loc[0] #la mostra zero, primera fila

In [None]:
type(df_who.loc[0]) # una fila també és una sèrie

In [None]:
print(df_who.loc[0].Country) # Podem accedir a una sèrie amb el seu índex
print(df_who.loc[0][0]) #o amb la seva posició
print(df_who.loc[0][3])

Com passava amb les llistes també podem seleccionar diversos elements (files) en una sola comanda usant la tècnica de _slicing_.

In [None]:
df_who.loc[166:170] #slicing

In [None]:
# Els índexs són útils quan són dates: Sèries temporals
# per exemple:
# df.loc["2020":"2022"]

L'índex pot canviar-se per qualsevol altre valor (i idealment únic)

In [None]:
df_who.set_index("Country",inplace=True)

In [None]:
print(df_who.index)
print("-"*30)
df_who.loc["Albania"]          # l'accés per LOC ja no és numèric
   

### Selecció condicional

Si volem que la nostra selecció es correspongui amb un criteri lògic, per exemple saber quins són els països amb una taxa d'alfabetització dels adults amb més d'un 70% podem fer el següent:

In [None]:
df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") #dataframe

In [None]:
alfabetitzacio = df_who[df_who['Adult literacy rate (%)'] > 70][["Country","Adult literacy rate (%)"]]

alfabetitzacio[alfabetitzacio["Country"] == "Italy"]

L'estructura d'aquest tipus de selecció sembla complexa, però si la dividim en parts veurem que és abordable:

In [None]:
# En aquest codi obtenim una llista de valors booleans (True o False) segons és compleix la condició per cada una de les files:
seleccio = df_who['Adult literacy rate (%)'] > 70

In [None]:
# En aquest codi, de les files on seleccio == True agafam les dues columnes que ens interessen
df_who[seleccio][["Country","Adult literacy rate (%)"]]

In [3]:
# Multiples criteris
# CO_emisions i Fertilitat
import numpy as np
ix = np.where((df_who["Total_CO2_emissions"] > 10) & (df_who[df_who.columns[3]] <=0.6))
ix

(array([92]),)

I una mostra aleatoria:

In [None]:
import numpy as np
random_sample = np.random.randint(0,2,df_who.shape[0]).astype('bool')
print(random_sample)
print(len(random_sample))

In [None]:
df_who[random_sample]

In [None]:
df_who.sample(3) #Nota: hi ha altres mètodes més efectius per fer aquesta funció de sampling

Aquest tipus de selecció ens obre tot un nou ventall de possibilitats de selecció "automàtica" de dades que fins ara es feia molt complicat.



## Files i columnes

Obviament, si sabem seleccionar files i columnes, podem combinar-les per fer una selecció més específica.

In [None]:

df_who.loc[167:169, ["Country","Total_CO2_emissions"]] # per noms

No sempre ens serà còmode fer seleccions amb els noms de les files (encara que normalment siguin nombres) i de les columnes. Si volem fer seleccions emprant només els índexs podem emprar el mètode `iloc`:

In [None]:
df_who.iloc[[168,192],[0,43,118]] # per posicions

## Estadistics damunt d'un dataframe

In [None]:
# Creem un dataframe numèric amb valors aleatoris
import numpy as np

np.random.seed(10)

df = pd.DataFrame({"one":np.random.randint(-10,10,5),
                  "two":np.random.random(5),
                  "three":np.random.randint(0,5,5)})
df

In [None]:
df.sum()

In [None]:
df.sum(axis=1) # concepte d'axis 

In [None]:
df.cumsum()

In [None]:
df.apply(np.abs).cumsum()

In [None]:
df.apply(np.abs).cumsum(axis=1)

In [None]:
df.cumprod()

In [None]:
df.cumprod(axis=1)

In [None]:
ones = np.ones(5)
print(ones)


In [None]:
df.sub(ones,axis=0)

In [None]:
df.sub(ones) #Alerta!

In [None]:
df.sub(df.one,axis=0)

In [None]:
# nornalització z-score (mean a 0 i desviació a 1)
ts_stand = (df - df.mean()) / df.std()
ts_stand

In [None]:
print(ts_stand.mean())
print("----")
print(ts_stand.std())

## Sèries no numèriques

In [None]:
df_who["Country"] 

Si l'objecte es del tipus string (str) podem aplicar mètodes d'aquest tipus a tota la sèrie:
https://www.w3schools.com/python/python_ref_string.asp

In [None]:
df_who.Country.str.casefold()

In [None]:
df_who.Country.str.zfill(12)

## Activitat

En aquesta activitat practicarem la selecció de dades (columnes i files) en un dataframe

**1) Quina és la mitjana de la població urbana ("Urban_population") de tots els països? La seva desviació típica (std)?**

**2) Consulta la fila del país: “Spain”**

**3) Quin país té una població urbana més gran?**

**4) El continent on està situat Spain és el mateix que el d'UnitedStates?**

Utilitza una condició per obtenir un resultat Booleà (*True* o *False*)

**5) Quins són els cinc països més contaminants ("Total_CO2_emissions")?**

Aquesta és la meva [pista per a una solució elegant](http://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.DataFrame.sort_values.html)

**6) Observant algunes mostres del fitxer pots establir la relació entre l'identificador del continent i el seu nom?**

És a dir, sabem que Spain és al continent Europeu i el codi del continent és el 2.

Hi ha els codis de continents: 1, 2, 3, 4, 5, 6, 7

**Nota:** Hi ha dos codis associats a Àsia.

Fes les consultes pertinents al dataframe per construir un diccionari amb la següent

In [None]:
codigoContinentes = {1:"Asia",2:"Europa"} 
print(codigoContinentes[2])

In [None]:
codigoContinentes[3] = ""
codigoContinentes[4] = ""
codigoContinentes[5] = ""
codigoContinentes[6] = ""
codigoContinentes[7] = ""


**7) Quins països tenen una població urbana menor a 50.000 ?**

In [None]:
#TODO

**8) Selecciona els països entre les files 100 i 120 i només 4 columnes a l'atzar.**

In [None]:
#TODO

**9) Selecciona totes les dades dels països que començen amb la lletra "A".**

In [None]:
#TODO

**6b) Amb el diccionari de codi i nom de continent (activitat 6) transforma aquesta sèrie numèrica de codis en una sèrie més descriptiva que contengui el nom del continent (pista: transform(), map() o apply())**

[![License: CC BY 4.0](https://img.shields.io/badge/License-CC_BY_4.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) <br/>
Isaac Lera and Gabriel Moya <br/>
Universitat de les Illes Balears <br/>
isaac.lera@uib.edu, gabriel.moya@uib.edu