# Exercici Regressió

Farem una regressió multiple sobre un problema real. Emprarem el *California Housing* dataset.

<img src="california.png"  width="500"/>

>This dataset was obtained from the StatLib repository. https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html
>
> **The target variable is the median house value for California districts, expressed in hundreds of thousands of dollars (100,000).**
>
>This dataset was derived from the 1990 U.S. census, using one row per census block group. A block group is the smallest geographical unit for which the U.S. Census Bureau publishes sample data (a block group typically has a population of 600 to 3,000 people).
>
>An household is a group of people residing within a home. Since the average number of rooms and bedrooms in this dataset are provided per household, these columns may take surpinsingly large values for block groups with few households and many empty houses, such as vacation resorts.
>
>It can be downloaded/loaded using the sklearn.datasets.fetch_california_housing function.

Importam les llibreries que utilitzarem.

In [8]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

## Pandas 
**[Més informació](https://pandas.pydata.org/docs/user_guide/10min.html)**

Pandas és una llibreria de Python molt popular per a l'anàlisi i manipulació de dades, ideal per treballar amb grans conjunts de dades en formats estructurats com taules. La llibreria ofereix estructures de dades flexibles i eficients, com les Series i els DataFrames, per manipular i processar les dades de manera intuïtiva. És àmpliament utilitzada en anàlisi de dades, ciència de dades, aprenentatge automàtic, i en qualsevol camp que requereixi treballar amb dades.

Nosaltres en farem ús per llegir les dades i manipular-la.

In [2]:
housing = fetch_california_housing(as_frame=True)

print(housing.keys())
df = housing.frame

df.head()

dict_keys(['data', 'target', 'frame', 'target_names', 'feature_names', 'DESCR'])


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


Podem observar com es distribuixen les dades. ``Pandas`` té una funció que ens retorna informació estadística per cada una de les característiques.

In [9]:
df.describe()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,3.870671,28.639486,5.429,1.096675,1425.476744,3.070655,35.631861,-119.569704,2.068558
std,1.899822,12.585558,2.474173,0.473911,1132.462122,10.38605,2.135952,2.003532,1.153956
min,0.4999,1.0,0.846154,0.333333,3.0,0.692308,32.54,-124.35,0.14999
25%,2.5634,18.0,4.440716,1.006079,787.0,2.429741,33.93,-121.8,1.196
50%,3.5348,29.0,5.229129,1.04878,1166.0,2.818116,34.26,-118.49,1.797
75%,4.74325,37.0,6.052381,1.099526,1725.0,3.282261,37.71,-118.01,2.64725
max,15.0001,52.0,141.909091,34.066667,35682.0,1243.333333,41.95,-114.31,5.00001


## Matriu de correlació

Una matriu de correlació és una eina estadística que mostra la força i la direcció de la relació entre diverses variables dins d’un conjunt de dades. Es tracta d’una matriu quadrada on cada fila i columna representa una variable, i cada element de la matriu indica el coeficient de correlació entre el parell de variables corresponent. Els valors del coeficient de correlació poden variar entre -1 i 1:

* Un valor de 1 indica una correlació positiva perfecta, és a dir, que a mesura que una variable augmenta, l’altra també augmenta de manera proporcional.
* Un valor de -1 indica una correlació negativa perfecta, on una variable augmenta mentre l’altra disminueix.
* Un valor proper a 0 indica poca o cap correlació, és a dir, que els canvis en una variable no es relacionen amb canvis en l’altra.

La matriu de correlació és especialment útil per identificar relacions entre variables i detectar colinearitat en l’anàlisi de dades i l’aprenentatge automàtic.

In [4]:
corr = df.corr()
corr.style.background_gradient(cmap="coolwarm")

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
MedInc,1.0,-0.119034,0.326895,-0.06204,0.004834,0.018766,-0.079809,-0.015176,0.688075
HouseAge,-0.119034,1.0,-0.153277,-0.077747,-0.296244,0.013191,0.011173,-0.108197,0.105623
AveRooms,0.326895,-0.153277,1.0,0.847621,-0.072213,-0.004852,0.106389,-0.02754,0.151948
AveBedrms,-0.06204,-0.077747,0.847621,1.0,-0.066197,-0.006181,0.069721,0.013344,-0.046701
Population,0.004834,-0.296244,-0.072213,-0.066197,1.0,0.069863,-0.108785,0.099773,-0.02465
AveOccup,0.018766,0.013191,-0.004852,-0.006181,0.069863,1.0,0.002366,0.002476,-0.023737
Latitude,-0.079809,0.011173,0.106389,0.069721,-0.108785,0.002366,1.0,-0.924664,-0.14416
Longitude,-0.015176,-0.108197,-0.02754,0.013344,0.099773,0.002476,-0.924664,1.0,-0.045967
MedHouseVal,0.688075,0.105623,0.151948,-0.046701,-0.02465,-0.023737,-0.14416,-0.045967,1.0


# Treball vostre

Emprant les dades de *California Housing* dataset fer el següent:

1. Fer un model de regressió lineal per prediure el valor de les cases a un barri (la darrera columna), **amb totes les variables**.
2. Fer un model de regressió lineal per prediure el valor de les cases a un barri (la darrera columna), **seleccionant un subconjunt d'elles**, discuteix quina estratègia has emprat.