<div align="center">

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.png)](https://colab.research.google.com/github/wisaaco/Curs_FG24GOI0074221/blob/main/lessons/4_Pandas_Estructura.ipynb)

Si no funciona el botó podeu copiar el següent [enllaç](https://colab.research.google.com/github/wisaaco/Curs_FG24GOI0074221/blob/main/lessons/4_Pandas_Estructura.ipynb)
</div>

# Unitat 4: 4.B Estructura del dataframe

Ara que ja sabem carregar dataframes de fitxers, descobrirem com podem accedir a l'informació que es troba dins dels tipus de variable fet servir per Pandas.

Un dataframe té columnes i files. Les files són mostres i les columnes representen característiques d'una mostra. Una columna és del tipus Sèrie.

**L'objectiu d'aquesta unitat és adquirir eines per entendre i seleccionar les dades representades a un dataframe i a una sèrie amb Pandas.**


Començarem seleccionant columnes i obtenint resums estadístics d'elles. Més endavant passarem a fer seleccions de files del dataframe. Finalment, realitzarem seleccions combinades creant els nostres propis dataframes a partir dels subconjunts seleccionats.

In [1]:
import pandas as pd

df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") #dataframe

In [None]:
df_who.info()

In [None]:
df_who.describe()

## Columnes

Com hem comentat a l'introducció, començarem amb les columnes

In [None]:
# Columnes o caracteristiques de cada mostra
print(df_who.columns)

In [None]:
for col in df_who.columns: #label
    print(col)

Access als valors d'una columna: sèrie

In [None]:
df_who["Country"] 

In [None]:
type(df_who["Country"])

Un cop seleccionam una columna podem accedir als seus elements com si fossin una llista:

In [None]:
print(df_who["Country"][0])
print("-"*30)
print(df_who["Country"][:5]) # slicing
print("-"*30)
print(df_who["Country"].values)

 Existeix una altra manera més simple de seleccionar una única columna pero hi ha noms de columnes molt llargues: "Children aged &lt;5 years who received any antimalarial treatment for fever (%)"

**Nota**: En la creació de documents és important un adequat nom de columnes

In [None]:
df_who.Country

In [None]:
print(df_who.columns[9])
print("-"*30)
print(df_who[df_who.columns[9]])


In [None]:
# Podem agafar multiples columnes
df_who[df_who.columns[0:5]]


In [None]:
df_who[["CountryID","Continent"]]

In [None]:
# Podem accedir a les columnes amb la seva posició en lloc del nom
# funció: .iloc(files, columnes)
df_who.iloc[:,3:5]

In [None]:
# o a un subconjunt específic
df_who.iloc[:,[3,5,9]]

### Sèries i mètodes estadístics

En seleccionar una columna d'un dataframe obtenim una sèrie. Les sèries tenem certes característiques com l'aplicació de mètodes estadístics (sí és una sèrie numèrica).


In [None]:
fertilitat = df_who[df_who.columns[3]]
print("Min ", fertilitat.min()) # a Pandas el concepte d'iterar "no té sentit"
print("Max ", fertilitat.max())
print("Mean ", fertilitat.mean())

A continuació trobareu la taula que mostra les funcions descriptives que tenim disponibles:
<img src="https://i.imgur.com/OYnOFwL.png">

Veurem que obtenir aquestes informacions estadístiques ens pot ajudar a extreure informació molt concreta de la taula, per exemple, si volem saber:

**¿Quin pais té la major emissió de CO2 ?**

In [None]:
co2 = df_who["Total_CO2_emissions"]
row = df_who[co2 == co2.max()]  # Selecció condicionada *
type(row)

La variable row conté la fila amb el valor màxim a la columna "Total_CO2_emissions"

In [None]:
print(row["Country"])

In [None]:
row["Country"].values

In [None]:
print("El pais mas contaminante es: ", row["Country"].values[0])

Podem fer seleccions aleatories d'una serie

In [None]:
fertilitat = df_who[df_who.columns[3]]
some = fertilitat.sample(n=3)
print(some)
fertilitat.sample(n=3,random_state=2023) #on random_state és la llavor/seed del aleatori

## Files

Cada fila té un índex. L'índex pot ser numèric, alfabètic o de temps.

In [None]:
df_who.index

In [None]:
df_who.index.values

Emprant el tribut  `loc` del dataframe podem accedir a les seves files amb la mateixa lògica que empram a les llistes:

In [None]:
df_who.loc[0] #la mostra zero, primera fila

In [None]:
type(df_who.loc[0]) # una fila també és una sèrie

In [None]:
print(df_who.loc[0].Country) # Podem accedir a una sèrie amb el seu índex
print(df_who.loc[0][0]) #o amb la seva posició
print(df_who.loc[0][3])

Com passava amb les llistes també podem seleccionar diversos elements (files) en una sola comanda usant la tècnica de _slicing_.

In [None]:
df_who.loc[166:170] #slicing

In [None]:
# Els índexs són útils quan són dates: Sèries temporals
# per exemple:
# df.loc["2020":"2022"]

L'índex pot canviar-se per qualsevol altre valor (i idealment únic)

In [None]:
df_who.set_index("Country",inplace=True)

In [None]:
print(df_who.index)
print("-"*30)
df_who.loc["Albania"]          # l'accés per LOC ja no és numèric
   

### Selecció condicional

Si volem que la nostra selecció es correspongui amb un criteri lògic, per exemple saber quins són els països amb una taxa d'alfabetització dels adults amb més d'un 70% podem fer el següent:

In [None]:
df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") #dataframe

In [None]:
alfabetitzacio = df_who[df_who['Adult literacy rate (%)'] > 70][["Country","Adult literacy rate (%)"]]

alfabetitzacio[alfabetitzacio["Country"] == "Italy"]

L'estructura d'aquest tipus de selecció sembla complexa, però si la dividim en parts veurem que és abordable:

In [None]:
# En aquest codi obtenim una llista de valors booleans (True o False) segons és compleix la condició per cada una de les files:
seleccio = df_who['Adult literacy rate (%)'] > 70

In [None]:
# En aquest codi, de les files on seleccio == True agafam les dues columnes que ens interessen
df_who[seleccio][["Country","Adult literacy rate (%)"]]

In [3]:
# Multiples criteris
# CO_emisions i Fertilitat
import numpy as np
ix = np.where((df_who["Total_CO2_emissions"] > 10) & (df_who[df_who.columns[3]] <=0.6))
ix

(array([92]),)

I una mostra aleatoria:

In [None]:
import numpy as np
random_sample = np.random.randint(0,2,df_who.shape[0]).astype('bool')
print(random_sample)
print(len(random_sample))

In [None]:
df_who[random_sample]

In [None]:
df_who.sample(3) #Nota: hi ha altres mètodes més efectius per fer aquesta funció de sampling

Aquest tipus de selecció ens obre tot un nou ventall de possibilitats de selecció "automàtica" de dades que fins ara es feia molt complicat.



## Files i columnes

Obviament, si sabem seleccionar files i columnes, podem combinar-les per fer una selecció més específica.

In [None]:

df_who.loc[167:169, ["Country","Total_CO2_emissions"]] # per noms

No sempre ens serà còmode fer seleccions amb els noms de les files (encara que normalment siguin nombres) i de les columnes. Si volem fer seleccions emprant només els índexs podem emprar el mètode `iloc`:

In [None]:
df_who.iloc[[168,192],[0,43,118]] # per posicions

## Estadistics damunt d'un dataframe

In [None]:
# Creem un dataframe numèric amb valors aleatoris
import numpy as np

np.random.seed(10)

df = pd.DataFrame({"one":np.random.randint(-10,10,5),
                  "two":np.random.random(5),
                  "three":np.random.randint(0,5,5)})
df

In [None]:
df.sum()

In [None]:
df.sum(axis=1) # concepte d'axis 

In [None]:
df.cumsum()

In [None]:
df.apply(np.abs).cumsum()

In [None]:
df.apply(np.abs).cumsum(axis=1)

In [None]:
df.cumprod()

In [None]:
df.cumprod(axis=1)

In [None]:
ones = np.ones(5)
print(ones)


In [None]:
df.sub(ones,axis=0)

In [None]:
df.sub(ones) #Alerta!

In [None]:
df.sub(df.one,axis=0)

In [None]:
# nornalització z-score (mean a 0 i desviació a 1)
ts_stand = (df - df.mean()) / df.std()
ts_stand

In [None]:
print(ts_stand.mean())
print("----")
print(ts_stand.std())

## Altres operaciones damunt sèries no numèriques

In [None]:
df_who["Country"] 

Si l'objecte es del tipus string (str) podem aplicar mètodes d'aquest tipus a tota la sèrie:
https://www.w3schools.com/python/python_ref_string.asp

In [None]:
df_who.Country.str.casefold()

In [None]:
df_who.Country.str.zfill(12)

## <span style="color:red">Activitat 1: Reflexió - estructuració de dades</span>



L'estructura de dades moltes vegades està condicionada per les eines i el llenguatge que utilitzem, però malgrat això, hi ha un conjunt de pràctiques que millorant la interpretabilitat, col·laboració, manteniment i escalabilitat.

**La publicació de dades s'ha de fer en cru (raw data).**<br/>
Les dades en cru, també conegudes com a dades primàries, dades font o dades atòmiques, són dades no processades que s'han recopilat i registrat directament d'una font sense cap manipulació, organització o anàlisi.

L'agregació només s'ha d'aplicar per anonimitzar-les.

In [3]:
## EXEMPLE:
import numpy as np
preus = np.array(
        [ #Dia0, Dia1, Dia2, Dia3
          [30.3, 20.3, 25.9, 39.0], # Cebes, preus per cèntims/kg 
          [0.33, 0.43, 0.34, 0.12], # Patates, euro/kg
          [0.45, 0.56, 0.38, 0.43] # Taronges euro/kg
])

print(preus)

[[30.3  20.3  25.9  39.  ]
 [ 0.33  0.43  0.34  0.12]
 [ 0.45  0.56  0.38  0.43]]


In [4]:
# Problema 1. On resideix el conexeixement?
kk = np.array([[30.3, 20.3, 25.9, 39.0], 
            [0.33, 0.43, 0.34, 0.12], 
            [0.45, 0.56, 0.38, 0.43] ])

# Problema 2. I si tinc un nou producte: llimones, i d'altres dies
# Problema 3. I com puc afegir més preus de les patates (dia 4 i dia 5)
# Problema 4. I sí el dia 2, és realment el día 3
# ...

### Com estructurem aquestes dades en un dataframe?

In [4]:
### REFLEXIO

### ANNEX
import pandas as pd
import numpy as np
preus = np.array(
        [ #Dia0, Dia1, Dia2, Dia3
          [30.3, 20.3, 25.9, 39.0], # Cebes, preus per cèntims/kg 
          [0.33, 0.43, 0.34, 0.12], # Patates, euro/kg
          [0.45, 0.56, 0.38, 0.43] # Taronges euro/kg
])
productes = np.array([["cebes"]*preus.shape[1],["patates"]*preus.shape[1],["taronges"]*preus.shape[1]]).flatten()
dates = np.tile(pd.date_range("2024-01-07", periods=preus.shape[1], freq="d").to_numpy(),preus.shape[0])

df_preus = pd.DataFrame(dict({"producte":productes,"preu":preus.flatten(),"data":dates}))
df_preus

Unnamed: 0,producte,preu,data
0,cebes,30.3,2024-01-07
1,cebes,20.3,2024-01-08
2,cebes,25.9,2024-01-09
3,cebes,39.0,2024-01-10
4,patates,0.33,2024-01-07
5,patates,0.43,2024-01-08
6,patates,0.34,2024-01-09
7,patates,0.12,2024-01-10
8,taronges,0.45,2024-01-07
9,taronges,0.56,2024-01-08


In [12]:
# normalitzacio preus cebes
df_preus.index = df_preus.producte ### Podem fer el que volguem amb l'index
print(df_preus)
print(df_preus.loc["cebes","preu"])

df_preus.index.names = ['index']
df_preus.loc["cebes","preu"] = df_preus.loc["cebes","preu"]/100

          producte   preu       data
producte                            
cebes        cebes  0.303 2024-01-07
cebes        cebes  0.203 2024-01-08
cebes        cebes  0.259 2024-01-09
cebes        cebes  0.390 2024-01-10
patates    patates  0.330 2024-01-07
patates    patates  0.430 2024-01-08
patates    patates  0.340 2024-01-09
patates    patates  0.120 2024-01-10
taronges  taronges  0.450 2024-01-07
taronges  taronges  0.560 2024-01-08
taronges  taronges  0.380 2024-01-09
taronges  taronges  0.430 2024-01-10
producte
cebes    0.303
cebes    0.203
cebes    0.259
cebes    0.390
Name: preu, dtype: float64


In [13]:
# A) Quin és el preu màxim de cada producte?
df_preus.groupby("producte").max() #data col. no


Unnamed: 0_level_0,preu,data
producte,Unnamed: 1_level_1,Unnamed: 2_level_1
cebes,0.0039,2024-01-10
patates,0.43,2024-01-10
taronges,0.56,2024-01-10


In [14]:
# B) Quin és el producte més car?
df_preus.groupby("producte").max().reset_index().max()

producte               taronges
preu                       0.56
data        2024-01-10 00:00:00
dtype: object

In [16]:
# C) Quin dia són més cares les taronges?
df_taronges = df_preus.loc[df_preus["producte"]=="taronges"]
df_taronges[df_taronges["preu"]== df_taronges["preu"].max()]

Unnamed: 0_level_0,producte,preu,data
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
taronges,taronges,0.56,2024-01-08


In [17]:
# D) I si el preu de mercat és un 20% més, quins preus tindrem?
df_preus_inf = df_preus
df_preus_inf["preu"] = df_preus_inf["preu"]*1.2
df_preus_inf

Unnamed: 0_level_0,producte,preu,data
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cebes,cebes,0.003636,2024-01-07
cebes,cebes,0.002436,2024-01-08
cebes,cebes,0.003108,2024-01-09
cebes,cebes,0.00468,2024-01-10
patates,patates,0.396,2024-01-07
patates,patates,0.516,2024-01-08
patates,patates,0.408,2024-01-09
patates,patates,0.144,2024-01-10
taronges,taronges,0.54,2024-01-07
taronges,taronges,0.672,2024-01-08


In [18]:
# E) Quin és el cost de comprar 3 kg de taronges i 2.5 kg de cebes el dia 2?
df_tmp = df_preus.set_index(df_preus.producte)
df_tmp_date2 = df_tmp[df_tmp["data"]=="2024-01-08"]
df_tmp_date2.loc["cebes"]["preu"]*2.5+df_tmp_date2.loc["taronges"]["preu"]*3

2.02209

## <span style="color:red">Activitat 2</span>

En aquesta activitat practicarem la selecció de dades (columnes i files) en un dataframe

**1) Quina és la mitjana de la població urbana ("Urban_population") de tots els països? La seva desviació típica (std)?**

In [19]:
import pandas as pd
df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") 

print(df_who["Urban_population"].mean())
print(df_who["Urban_population"].std())

16657626.767446807
50948665.823935635


**2) Consulta la fila del país: “Spain”**

In [20]:
df_who[df_who.Country == "Spain"]

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
168,Spain,169,2,10.0,97.2,28200.0,99.0,100.0,43887.0,1.1,...,343701.53,678000000000.0,,-57700000000.0,4.9,4.2,4.9,33300000.0,1.75,76.7


**3) Quin país té una població urbana més gran?**

In [21]:
df_who[df_who["Urban_population"]==df_who["Urban_population"].max()]["Country"].values[0]

'China'

**4) El continent on està situat Spain és el mateix que el d'UnitedStates?**

Utilitza una condició per obtenir un resultat Booleà (*True* o *False*)

In [22]:
continent_spain = df_who[df_who.Country == "Spain"]["Continent"].values[0]
print(continent_spain)
continent_eeuu = df_who[df_who.Country == "United States of America"]["Continent"].values[0]
print(continent_eeuu)

if (continent_eeuu==continent_spain):
    print("Iguals")
else:
    print("False")

2
4
False


**5) Quins són els cinc països més contaminants ("Total_CO2_emissions")?**

Aquesta és la meva [pista per a una solució elegant](http://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.DataFrame.sort_values.html)

In [23]:
df_who.iloc[df_who.Total_CO2_emissions.nlargest(5).index]

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
192,United States of America,193,4,43.0,,44070.0,93.0,91.0,302841.0,1.0,...,5776431.5,11000000000000.0,,-714000000000.0,8.0,7.1,8.0,240000000.0,1.39,80.8
36,China,37,7,3.0,90.9,4660.0,96.0,100.0,1328474.0,0.6,...,5547757.5,1890000000000.0,295.23,125000000000.0,27.3,27.8,27.3,527000000.0,2.95,40.4
149,Russia,150,2,28.0,99.4,12740.0,91.0,91.0,143221.0,-0.5,...,1503302.5,350000000000.0,79.57,104000000000.0,18.3,20.5,18.3,104000000.0,-0.6,73.0
79,India,80,7,97.0,61.0,2460.0,87.0,90.0,1151751.0,1.5,...,1402359.4,644000000000.0,111.94,-24700000000.0,80.21,77.2,80.21,314000000.0,2.07,28.7
87,Japan,88,6,6.0,,32840.0,100.0,100.0,127953.0,0.0,...,1230026.8,4990000000000.0,,69900000000.0,3.8,3.5,3.8,84100000.0,0.19,65.8


**6) Observant algunes mostres del fitxer pots establir la relació entre l'identificador del continent i el seu nom?**

És a dir, sabem que Spain és al continent Europeu i el codi del continent és el 2.

Hi ha els codis de continents: 1, 2, 3, 4, 5, 6, 7

**Nota:** Hi ha dos codis associats a Àsia.

Fes les consultes pertinents al dataframe per construir un diccionari amb la següent

In [24]:
codigoContinentes = {1:"Africa",2:"Europa",3:"Africa",4:"America Norte",5:"America Sur",6:"Oceania",7:"Asia"}  #aprox.

In [None]:
codigoContinentes[3] = ""
codigoContinentes[4] = ""
codigoContinentes[5] = ""
codigoContinentes[6] = ""
codigoContinentes[7] = ""


**7) Quins països tenen una població urbana menor a 50.000 ?**

In [25]:
df_who[df_who["Urban_population"]<50000]["Country"]

5        Antigua and Barbuda
69                   Grenada
91                  Kiribati
151    Saint Kitts and Nevis
152              Saint Lucia
154                    Samoa
160               Seychelles
182                    Tonga
Name: Country, dtype: object

**8) Selecciona els països entre les files 100 i 120 i només 4 columnes a l'atzar.**

In [26]:
import numpy as np
print(df_who.shape[1])
cols = np.random.randint(0,df_who.shape[1],4)
print(cols)

df2 = df_who.iloc[100:120,cols]
df2

358
[221 285 218  74]


Unnamed: 0,Expenditure_per_student_primary,Market_value_of_listed_companies,Electricity_generation,Births attended by skilled health personnel difference highest lowest educational level of mother
100,,,,
101,2.97,,,
102,15.03,31.82,14.78,
103,20.66,140.2,,
104,4.76,3.14,,
105,,11.11,,
106,8.43,,,58.6
107,13.53,8.07,,40.6
108,14.54,132.58,96.23,
109,23.77,,,


**9) Selecciona totes les dades dels països que començen amb la lletra "A".**

In [27]:
df_who[df_who.Country.str.startswith("A")]

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0,4.0,...,692.5,,,,257.0,231.9,257.0,5740436.0,5.44,22.9
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0,0.6,...,3499.12,4790000000.0,78.14,-2040000000.0,18.47,15.5,18.47,1431793.9,2.21,45.4
2,Algeria,3,3,6.0,69.9,5940.0,94.0,96.0,33351.0,1.5,...,137535.56,69700000000.0,351.36,4700000000.0,40.0,31.2,40.0,20800000.0,2.61,63.3
3,Andorra,4,2,,,,83.0,83.0,74.0,1.0,...,,,,,,,,,,
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0,2.8,...,8991.46,14900000000.0,27.13,9140000000.0,164.1,242.5,164.1,8578749.0,4.14,53.3
5,Antigua and Barbuda,6,4,,,15130.0,,,84.0,1.3,...,421.36,830000000.0,,-102000000.0,12.6,,12.6,32468.25,2.25,39.1
6,Argentina,7,5,62.0,97.2,11670.0,98.0,99.0,39134.0,1.0,...,152711.86,314000000000.0,21.11,11900000000.0,18.1,16.7,18.1,34900000.0,1.17,90.1
7,Armenia,8,2,30.0,99.4,4950.0,84.0,80.0,3010.0,-0.3,...,4345.5,3400000000.0,35.98,-647000000.0,28.8,27.7,28.8,1934320.8,-0.62,64.1
8,Australia,9,6,16.0,,33940.0,97.0,96.0,20530.0,1.1,...,368858.53,468000000000.0,,-12800000000.0,5.9,5.1,5.9,18000000.0,1.54,88.2
9,Austria,10,2,14.0,,36040.0,98.0,97.0,8327.0,0.4,...,73602.43,209000000000.0,,8240000000.0,5.1,4.3,5.1,5433978.0,0.77,66.0


**6b) Amb el diccionari de codi i nom de continent (activitat 6) transforma aquesta sèrie numèrica de codis en una sèrie més descriptiva que contengui el nom del continent (pista: transform(), map() o apply())**

In [28]:
continents = df_who.Continent
print(continents)

name_continents = continents.map(codigoContinentes)
print(name_continents)

0      1
1      2
2      3
3      2
4      3
      ..
197    6
198    1
199    1
200    3
201    3
Name: Continent, Length: 202, dtype: int64
0       Africa
1       Europa
2       Africa
3       Europa
4       Africa
        ...   
197    Oceania
198     Africa
199     Africa
200     Africa
201     Africa
Name: Continent, Length: 202, dtype: object


[![License: CC BY 4.0](https://img.shields.io/badge/License-CC_BY_4.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) <br/>
Isaac Lera and Gabriel Moya <br/>
Universitat de les Illes Balears <br/>
isaac.lera@uib.edu, gabriel.moya@uib.edu

#### Annex Activitat 1: proposta d'estructura del dataframe per l'activitat 1

In [130]:
import pandas as pd
preus = np.array(
        [ #Dia0, Dia1, Dia2, Dia3
          [30.3, 20.3, 25.9, 39.0], # Cebes, preus per cèntims/kg 
          [0.33, 0.43, 0.34, 0.12], # Patates, euro/kg
          [0.45, 0.56, 0.38, 0.43] # Taronges euro/kg
])
productes = np.array([["cebes"]*preus.shape[1],["patates"]*preus.shape[1],["taronges"]*preus.shape[1]]).flatten()
dates = np.tile(pd.date_range("2024-01-07", periods=preus.shape[1], freq="d").to_numpy(),preus.shape[0])

df_preus = pd.DataFrame(dict({"producte":productes,"preu":preus.flatten(),"data":dates}))
df_preus

Unnamed: 0,producte,preu,data
0,cebes,30.3,2024-01-07
1,cebes,20.3,2024-01-08
2,cebes,25.9,2024-01-09
3,cebes,39.0,2024-01-10
4,patates,0.33,2024-01-07
5,patates,0.43,2024-01-08
6,patates,0.34,2024-01-09
7,patates,0.12,2024-01-10
8,taronges,0.45,2024-01-07
9,taronges,0.56,2024-01-08


In [124]:
### Per si de cas...
# ref: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html
df_tmp = pd.pivot_table(df_preus,index="producte",columns="data")
df_tmp

Unnamed: 0_level_0,preu,preu,preu,preu
data,2024-01-07,2024-01-08,2024-01-09,2024-01-10
producte,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
cebes,30.3,20.3,25.9,39.0
patates,0.33,0.43,0.34,0.12
taronges,0.45,0.56,0.38,0.43


In [128]:
df_tmp.values

array([[30.3 , 20.3 , 25.9 , 39.  ],
       [ 0.33,  0.43,  0.34,  0.12],
       [ 0.45,  0.56,  0.38,  0.43]])