<div align="right">

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/wisaaco/TallerPythonEBAP/blob/main/lessons/1/2_PandasIntroduccio.ipynb)


Si no funciona el botó podeu copiar el següent [enllaç](https://colab.research.google.com/github/wisaaco/TallerPythonEBAP/blob/main/lessons/1/2_PandasIntroduccio.ipynb)
</div>

# 2 - La llibreria Pandas

**Pandas** és la llibreria per excel·lència per a l'anàlisi de dades del llenguatge Python. El seu nom prové de “panell data” (terme economètric). Inspirada en les funcionalitats de fulls de càlcul i _R_, però amb el potencial d'aquest llenguatge de propòsit general.

**Pandas** inclou totes les funcionalitats necessàries per al procés d'anàlisi de dades: càrrega, filtrat, tractament, síntesi, agrupament, emmagatzematge i visualització. A més, s'integra amb la resta de llibreries de càlcul numèric com Numpy, visualització amb Matplotlib, aprenentatge automàtic amb scikit-learn, etc.

**L'objectiu d'aquesta unitat és adquirir capacitats bàsiques de càrrega de dades amb Pandas.**

Referències:
- [Pandas](https://pandas.pydata.org/)
- [Python](https://en.wikipedia.org/wiki/Python_(programming_language))
- [Característiques Pandas](https://github.com/pandas-dev/pandas#*main-*features)

*Nota*:  Pandas és una llibrería instal·lada per defecte a l'entorn d'execució de _Google Colab_.

In [None]:
import pandas as pd 

## Càrrega de dades i estructures bàsiques de Pandas.

A continuació, obrirem el nostre primer fitxer, ho farem a partir d'un fitxer de dades que presenta una estructura tabular. Aquests fitxers coneguts com a CSV (Comma Separated Value) és un dels formats més populars. A Excel pots exportar fitxers en format CSV.

El mètode a Pandas per obrir un fitxer CSV és: [read_csv](https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.read_csv.html).

In [26]:
df_who = pd.read_csv("data/WHO.csv") #Nota: hem d'especificar la ruta (o path) del fitxer

A Pandas hi ha dos tipus **principals** de variables: **dataframes i series**. Aquest mètode genera una variable del tipus dataframe

In [None]:
print(type(df_who))

In [None]:
df_who

In [None]:
# Estructura
print(df_who.shape) # files o mostres x columnes

In [None]:
df_who.info()

In [None]:
df_who.describe()

In [None]:
df_who.head()

In [None]:
df_who.tail()

### Carrega de dades (II)

Malauradament, l'estructura i la codificació de les dades en els fitxers _CSV_ varia segons l'eina o el sistema operatiu. Així, podem tenir separadors entre columnes que no siguin la típica ',' o formats no oberts (i.e. utf-8, ansci,...) de codificació del text.

Per això, la funció *read_csv* té molta versatilitat. Mirem la seva [documentació](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

Anem a veure que passa quan agafem dades de d'una administració pública: [enllaç](https://datos.gob.es/es/catalogo?q=bilbao&g-recaptcha-response=&administration_level=L&theme_id=economia&sort=score+desc%2C+metadata_created+desc) Aquest fitxer està disponible a: "data/presupuesto_gastos_2023.csv"


In [None]:
df_gastos = pd.read_csv("data/presupuesto_gastos_2023.csv") # quins errors genera ?

In [None]:
df_gastos = pd.read_csv("data/presupuesto_gastos_2023.csv",delimiter=";") # quins errors genera ?

### Codificació de caràcters

Python utilitza una representació basada en Unicode (https://home.unicode.org/). En canvi altres sistemes operatius i eines opten per altres tipus de representacions.

```python
var = "camión"
var = "lul·lià"
var = "Ζεύς"
var = "ประเทศไทย"
var = "日本語で"
```


Codificacions:
- [Llistat codificacions](https://docs.python.org/3.11/library/codecs.html#standard-encodings)
- [UTF-8](https://es.wikipedia.org/wiki/UTF-8)

In [None]:
# cp1250 | windows-1250 | Central and Eastern Europe

# Mètode bàsic: "Prova i error" !!!
df_gastos = pd.read_csv("data/presupuesto_gastos_2023.csv",delimiter=";",encoding="cp1250")


In [None]:
df_gastos.head()

### Guardant un dataframe

Durant aquest curs aprendrem a modificar els dataframes, afegirem i eliminarem columnes i també modificarem les que ja tenim. Per tant, fet aquesta feinada, és necessari guardar les dades noves a un fitxer.

In [None]:
df_gastos.to_csv('data/tmp_file.csv',encoding='utf-8') # guardant un dataframe en un fitxer, especificant el format

In [None]:
df_tmp = pd.read_csv("data/tmp_file.csv") # test codificació i separador

### Carrega de dades (III)

Pandas soporta diferents formats de fitxers (i.e. CSV,JSON, formats d'Excel, pàgines web, fitxers penjats a la web, etc.). Obviament, cada format té la seva particularitat.

Trobarem més informació al següent [enllaç](https://pandas.pydata.org/docs/reference/io.html) 

Un exemple de contigut a la Wikipedia:

In [None]:
url = "https://es.wikipedia.org/wiki/Anexo:Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa%C3%B1a" # Fes un copypaste d'aquesta url al teu navigador

comunidades_esp = pd.io.html.read_html(url) 
comunidades_esp # Alerta! Encara no és un dataframe! En una web pots trobar més "taules"

In [None]:
print(type(comunidades_esp[0]))
df_comunidades_esp = comunidades_esp[0]

In [None]:
df_comunidades_esp.head() # funciona perfectament??

Un segon exemple de contigut amb un fitxer JSON penjat a la web:

In [None]:
#Font: https://data.cityofnewyork.us/Environment/Urban-Park-Ranger-Animal-Condition-Response/fuhs-xmg2
url = 'https://data.cityofnewyork.us/resource/s3vf-x992.json'
df = pd.read_json(url)
df.head()

## Activitat

En aquesta activitat practicarem la càrrega de dades en diferents formats. Al món real les dades no sempre tenen una estructura i un format com ens agradaríem.

L'objectiu és que analitzeu la càrrega d'aquestes dades amb les originals: <br/>
- Quina dimensió tenen les dades reals i carregades?
- Quines columnes?
- El concepte de columna com atribut o característica i el concepte de fila com a mostra està present en l'estructura de les dades?
- Coincideixen amb la informació del fitxer?

### A) "Municipios y fenómeno demográfico de les Illes Balears" <br/>
Font: https://datos.gob.es/es/catalogo/ea0010587-balears-illes-por-municipios-y-fenomeno-demografico-mnpd-identificador-api-t20-e301-fenom-a2020-l0-23007-px <br/>
Fitxer: "data/municipis.csv" <br/>



In [None]:
import pandas as pd
#TODO

### B) "Speculation Watch List"
Font: https://data.cityofnewyork.us/Housing-Development/Speculation-Watch-List/adax-9mit <br/>
Fitxer: "data/Speculation_Watch_List.csv"

In [None]:
import pandas as pd
#TODO

### C) "Europe Inflation monthly data (annual rate of change)" 
Font: https://ec.europa.eu/eurostat/databrowser/view/PRC_HICP_MANR__custom_3761882/bookmark/table?lang=en&bookmarkId=4ad27e6f-358a-4a3d-82a0-587d69a833eb <br/>
Fitxer: "data/prc_hicp_manr__custom_3761882_spreadsheet.xlsx" <br/>
*Nota:*
  - Com podem agafar una "fulla" concreta del full de càlcul? [documentació](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)
  - Per aquesta activitat necessitem instal·lar una llibreria específica: executa la següent cel·la

In [None]:
%pip install openpyxl

In [None]:

import pandas as pd
#TODO


### D) "Taula de Naixements"
Font: https://ibestat.caib.es/ibestat/estadistiques/poblacio/naixements/414cab4f-b402-4cd1-af05-6617443de384 <br/>
URL dades: "https://ibestat.caib.es/ibestat/estadistiques/poblacio/naixements/414cab4f-b402-4cd1-af05-6617443de384" <br/>



In [None]:
import pandas as pd
#TODO


### E) "Nights spent at tourist accommodation establishments by residents/non-residents - monthly data"
Font:  https://ec.europa.eu/eurostat/databrowser/view/tin00171/default/table?lang=en <br/>
Fitxer: "data/tin00171_linear.csv.gz" <br/>
Nota: 
- Els fitxers comprimits amb format .gz podem obrir-se directament com si fossin fitxers de dades amb pandas, i en aquest cas és un fitxer del tipus CSV. És a dir, no cal descomprimir.


In [None]:
import pandas as pd
#TODO

[![License: CC BY 4.0](https://img.shields.io/badge/License-CC_BY_4.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) <br/>
Isaac Lera and Gabriel Moya <br/>
Universitat de les Illes Balears <br/>
isaac.lera@uib.edu, gabriel.moya@uib.edu