Ejemplo basico de carga de datos en Python

Cargamos las librerías que necesitaremos en el análisis.
Si no lo has hecho antes, debes instalar las librerias indicadas con el siguiente comando desde el prompt de windows 

>pip install pandas numpy matplotlib seaborn scikit-learn 


%matplotlib: Es un "magic command" que configura cómo se integran los gráficos de Matplotlib en la interfaz del notebook.
inline: indica que los gráficos deben mostrarse "en línea", es decir, incrustados en la misma celda, justo debajo del código que los genera.
Sin esta línea, los gráficos de Matplotlib podrían abrirse en ventanas externas, lo que no es deseable en el entorno de los notebooks. 
%matplotlib inline hace que sea conveniente ver los gráficos inmediatamente dentro del flujo de trabajo.

In [1]:
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as sns 
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn import metrics

%matplotlib inline

In [2]:
dataset = pd.read_csv('./HousePricesTrain.csv')

In [3]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

In [4]:
dataset.head(10)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
5,6,50,RL,85.0,14115,Pave,,IR1,Lvl,AllPub,...,0,,MnPrv,Shed,700,10,2009,WD,Normal,143000
6,7,20,RL,75.0,10084,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,307000
7,8,60,RL,,10382,Pave,,IR1,Lvl,AllPub,...,0,,,Shed,350,11,2009,WD,Normal,200000
8,9,50,RM,51.0,6120,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2008,WD,Abnorml,129900
9,10,190,RL,50.0,7420,Pave,,Reg,Lvl,AllPub,...,0,,,,0,1,2008,WD,Normal,118000


Vemos que el dataset tiene 1460 filas (casas) y 81 columnas (características de las casas). Si queréis una descripción detallada de lo que representa cada variable podéis echar un vistazo [aquí](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data).

Vamos a predecir con la mayor precisión posible el precio de la vivienda en función de las variables de que disponemos. Para simplificar el problema vamos a seleccionar un número limitado de variables que podemos considerar a priori como importantes:

* OverallQual: Calidad general de los materiales y las terminaciones
* GrLivArea: Superficie habitable sobre la planta baja en pies cuadrados
* GarageCars: Cuántos coches caben en el garage
* GarageArea: Superficie del garaga en pies cuadrados
* TotalBsmtSF: Superficie total del sótano
* 1stFlrSF: Superficie total de la primera planta
* FullBath: Baños completos
* TotRmsAbvGrd: Número de habitaciones sobre la planta baja
* YearBuilt: Año de construcción
* YearRemodAdd: Año de remodelación




In [5]:
dataset = dataset[['OverallQual', 'GrLivArea', 'GarageCars', 'GarageArea', 
                   'TotalBsmtSF', '1stFlrSF', 'FullBath', 'TotRmsAbvGrd', 
                   'YearBuilt', 'YearRemodAdd', 'SalePrice']]

In [6]:
dataset.describe()

Unnamed: 0,OverallQual,GrLivArea,GarageCars,GarageArea,TotalBsmtSF,1stFlrSF,FullBath,TotRmsAbvGrd,YearBuilt,YearRemodAdd,SalePrice
count,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,6.099315,1515.463699,1.767123,472.980137,1057.429452,1162.626712,1.565068,6.517808,1971.267808,1984.865753,180921.19589
std,1.382997,525.480383,0.747315,213.804841,438.705324,386.587738,0.550916,1.625393,30.202904,20.645407,79442.502883
min,1.0,334.0,0.0,0.0,0.0,334.0,0.0,2.0,1872.0,1950.0,34900.0
25%,5.0,1129.5,1.0,334.5,795.75,882.0,1.0,5.0,1954.0,1967.0,129975.0
50%,6.0,1464.0,2.0,480.0,991.5,1087.0,2.0,6.0,1973.0,1994.0,163000.0
75%,7.0,1776.75,2.0,576.0,1298.25,1391.25,2.0,7.0,2000.0,2004.0,214000.0
max,10.0,5642.0,4.0,1418.0,6110.0,4692.0,3.0,14.0,2010.0,2010.0,755000.0


In [7]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   OverallQual   1460 non-null   int64
 1   GrLivArea     1460 non-null   int64
 2   GarageCars    1460 non-null   int64
 3   GarageArea    1460 non-null   int64
 4   TotalBsmtSF   1460 non-null   int64
 5   1stFlrSF      1460 non-null   int64
 6   FullBath      1460 non-null   int64
 7   TotRmsAbvGrd  1460 non-null   int64
 8   YearBuilt     1460 non-null   int64
 9   YearRemodAdd  1460 non-null   int64
 10  SalePrice     1460 non-null   int64
dtypes: int64(11)
memory usage: 125.6 KB
