## Actividad 1: Generación de ETL

El proceso de ETL (Extract, Transform an Load) es escencial en el uso de modelos de "machine learning", este proceso se encarga de la preparación de los datos para el proceso de entrenamiento de los modelos. El proceso de ETL es crítico para el éxito de cualquier proyecto de Machine Learning, ya que los modelos solo son tan buenos como los datos que se utilizan para entrenarlos. Por lo tanto, la calidad de los datos y la precisión del proceso de ETL son esenciales para la obtención de resultados precisos y confiables.

En la presente actividad prepararemos un dataset con informacion de los precios de alquiler de casas/apartamentos para la ciudad de Seatle según AirBNB, a partir de este dataset se podría entrenar un modelo capas de estimar el valor del alquiler de un inmueble y por ejemplo publicarlo en Airbnb

## Imports 
Librerias que se necesitan para el desarrollo de la actividad

In [1]:
import pandas as pd

#### Configurando pandas para visualización de 100 columnas

In [9]:
pd.options.display.max_columns = 100

### Extracción de dataset sin preprocesamiento
El dataset es un archivo .csv y se encuantra alojado en el siguiente repositorio de GitHub: 
[repositorio](https://github.com/eyberthrojas/Actividad_1.git), pero lo podemos extraer directamente como un "dataframe" de pandas:

In [27]:
path = 'https://raw.githubusercontent.com/eyberthrojas/Actividad_1/main/airbnb_seatle_listings.csv'
df = pd.read_csv(path, on_bad_lines='skip')

In [33]:
# Tamaño del dataset:
df.shape

(3818, 49)

In [29]:
# Nombre de las variables(columnas) del dataframe
df.columns

Index(['host_since', 'host_response_rate', 'host_acceptance_rate',
       'host_is_superhost', 'host_total_listings_count',
       'host_has_profile_pic', 'host_identity_verified', 'latitude',
       'longitude', 'is_location_exact', 'property_type', 'room_type',
       'accommodates', 'bathrooms', 'bedrooms', 'beds', 'bed_type',
       'amenities', 'square_feet', 'price', 'security_deposit', 'cleaning_fee',
       'guests_included', 'extra_people', 'minimum_nights', 'maximum_nights',
       'calendar_updated', 'has_availability', 'availability_30',
       'availability_60', 'availability_90', 'availability_365',
       'number_of_reviews', 'first_review', 'last_review',
       'review_scores_rating', 'review_scores_accuracy',
       'review_scores_cleanliness', 'review_scores_checkin',
       'review_scores_communication', 'review_scores_location',
       'review_scores_value', 'requires_license', 'instant_bookable',
       'cancellation_policy', 'require_guest_profile_picture',
     

In [30]:
# Primeros tres registros del dataframe
df.head(3)

Unnamed: 0,host_since,host_response_rate,host_acceptance_rate,host_is_superhost,host_total_listings_count,host_has_profile_pic,host_identity_verified,latitude,longitude,is_location_exact,property_type,room_type,accommodates,bathrooms,bedrooms,beds,bed_type,amenities,square_feet,price,security_deposit,cleaning_fee,guests_included,extra_people,minimum_nights,maximum_nights,calendar_updated,has_availability,availability_30,availability_60,availability_90,availability_365,number_of_reviews,first_review,last_review,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,requires_license,instant_bookable,cancellation_policy,require_guest_profile_picture,require_guest_phone_verification,calculated_host_listings_count,reviews_per_month
0,2011-08-11,96%,100%,f,3.0,t,t,47.636289,-122.371025,t,Apartment,Entire home/apt,4,1.0,1.0,1.0,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",,$85.00,,,2,$5.00,1,365,4 weeks ago,t,14,41,71,346,207,2011-11-01,2016-01-02,95.0,10.0,10.0,10.0,10.0,9.0,10.0,f,f,moderate,f,f,2,4.07
1,2013-02-21,98%,100%,t,6.0,t,t,47.639123,-122.365666,t,Apartment,Entire home/apt,4,1.0,1.0,1.0,Real Bed,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",,$150.00,$100.00,$40.00,1,$0.00,2,90,today,t,13,13,16,291,43,2013-08-19,2015-12-29,96.0,10.0,10.0,10.0,10.0,10.0,10.0,f,f,strict,t,t,6,1.48
2,2014-06-12,67%,100%,f,2.0,t,t,47.629724,-122.369483,t,House,Entire home/apt,11,4.5,5.0,7.0,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",,$975.00,"$1,000.00",$300.00,10,$25.00,4,30,5 weeks ago,t,1,6,17,220,20,2014-07-30,2015-09-03,97.0,10.0,10.0,10.0,10.0,10.0,10.0,f,f,strict,f,f,2,1.15


### Metodo describe de pandas
El método `describe()` de pandas es una función que se utiliza para obtener estadísticas descriptivas de un DataFrame o una Serie de pandas. Esta función calcula y muestra varios estadísticos de resumen de los datos, como la media, la desviación estándar, los percentiles y los valores mínimos y máximos.

Algunos de los estadísticos que se muestran con el método `describe()` son:

`count`: número de valores no nulos.\
`mean`: promedio de los valores.\
`std`: desviación estándar de los valores.\
`min`: valor mínimo.\
`25%`: percentil 25 (el valor por debajo del cual cae el 25% de los datos).\
`50%`: percentil 50, también conocido como la mediana.\
`75%`: percentil 75 (el valor por debajo del cual cae el 75% de los datos).\
`max`: valor máximo.\

Por defecto, `describe()` sólo muestra estadísticos para columnas numéricas, aunque se puede utilizar el parámetro include para incluir columnas de otros tipos de datos, como cadenas de caracteres.


In [32]:
df.describe()

Unnamed: 0,host_total_listings_count,latitude,longitude,accommodates,bathrooms,bedrooms,beds,square_feet,guests_included,minimum_nights,maximum_nights,availability_30,availability_60,availability_90,availability_365,number_of_reviews,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,calculated_host_listings_count,reviews_per_month
count,3816.0,3818.0,3818.0,3818.0,3802.0,3812.0,3817.0,97.0,3818.0,3818.0,3818.0,3818.0,3818.0,3818.0,3818.0,3818.0,3171.0,3160.0,3165.0,3160.0,3167.0,3163.0,3162.0,3818.0,3191.0
mean,7.157757,47.628961,-122.333103,3.349398,1.259469,1.307712,1.735394,854.618557,1.672603,2.369303,780.447617,16.786276,36.814825,58.082504,244.772656,22.223415,94.539262,9.636392,9.556398,9.786709,9.809599,9.608916,9.452245,2.946307,2.078919
std,28.628149,0.043052,0.031745,1.977599,0.590369,0.883395,1.13948,671.404893,1.31104,16.305902,1683.589007,12.173637,23.337541,34.063845,126.772526,37.730892,6.606083,0.698031,0.797274,0.595499,0.568211,0.629053,0.750259,5.893029,1.822348
min,1.0,47.505088,-122.417219,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,20.0,2.0,3.0,2.0,2.0,4.0,2.0,1.0,0.02
25%,1.0,47.609418,-122.35432,2.0,1.0,1.0,1.0,420.0,1.0,1.0,60.0,2.0,13.0,28.0,124.0,2.0,93.0,9.0,9.0,10.0,10.0,9.0,9.0,1.0,0.695
50%,1.0,47.623601,-122.328874,3.0,1.0,1.0,1.0,750.0,1.0,2.0,1125.0,20.0,46.0,73.0,308.0,9.0,96.0,10.0,10.0,10.0,10.0,10.0,10.0,1.0,1.54
75%,3.0,47.662694,-122.3108,4.0,1.0,2.0,2.0,1200.0,2.0,2.0,1125.0,30.0,59.0,89.0,360.0,26.0,99.0,10.0,10.0,10.0,10.0,10.0,10.0,2.0,3.0
max,502.0,47.733358,-122.240607,16.0,8.0,7.0,15.0,3000.0,15.0,1000.0,100000.0,30.0,60.0,90.0,365.0,474.0,100.0,10.0,10.0,10.0,10.0,10.0,10.0,37.0,12.15


In [21]:
df.columns

Index(['Unnamed: 0', 'host_since', 'host_response_rate',
       'host_acceptance_rate', 'host_is_superhost',
       'host_total_listings_count', 'host_has_profile_pic',
       'host_identity_verified', 'latitude', 'longitude', 'is_location_exact',
       'property_type', 'room_type', 'accommodates', 'bathrooms', 'bedrooms',
       'beds', 'bed_type', 'amenities', 'square_feet', 'price',
       'security_deposit', 'cleaning_fee', 'guests_included', 'extra_people',
       'minimum_nights', 'maximum_nights', 'calendar_updated',
       'has_availability', 'availability_30', 'availability_60',
       'availability_90', 'availability_365', 'number_of_reviews',
       'first_review', 'last_review', 'review_scores_rating',
       'review_scores_accuracy', 'review_scores_cleanliness',
       'review_scores_checkin', 'review_scores_communication',
       'review_scores_location', 'review_scores_value', 'requires_license',
       'instant_bookable', 'cancellation_policy',
       'require_guest_pr

In [12]:
columns=['host_since','host_response_rate','host_acceptance_rate','host_is_superhost','host_total_listings_count','host_has_profile_pic','host_identity_verified','latitude','longitude','is_location_exact', 'property_type', 'room_type', 'accommodates','bathrooms', 'bedrooms', 'beds', 'bed_type','amenities','square_feet','price','security_deposit','cleaning_fee', 'guests_included', 'extra_people', 'minimum_nights','maximum_nights', 'calendar_updated', 'has_availability','availability_30', 'availability_60', 'availability_90','availability_365','number_of_reviews','first_review', 'last_review', 'review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness','review_scores_checkin','review_scores_communication','review_scores_location', 'review_scores_value', 'requires_license', 'instant_bookable', 'cancellation_policy', 'require_guest_profile_picture','require_guest_phone_verification', 'calculated_host_listings_count','reviews_per_month']

In [15]:
df_sel = df[columns].copy(deep=True)

In [22]:
df_sel.to_csv('listings_clean.csv', index=False)