# Homerwork Pandas

Trabajarás con un conjunto de datos de Airbnb llamado Airbnb.csv. Realizarás diferentes actividades de análisis de datos, limpieza y exportación de información filtrada. 

1. Lectura de Datos y Análisis Estadístico
Leer el archivo airbnb.csv:

* Utiliza pandas para leer el archivo CSV y cargar los datos en un DataFrame df.
Muestra las primeras filas del DataFrame para familiarizarte con los datos.
Análisis Estadístico:

* Utiliza el método describe() para obtener un resumen estadístico de las columnas numéricas.
Utiliza el método info() para obtener información sobre el DataFrame, como el número de entradas, tipos de datos y valores nulos.


In [None]:
import pandas as pd

# Actividad 1: Lectura de Datos y Análisis Estadístico

# Leer el archivo CSV
df = pd.read_csv('airbnb.csv')

# Mostrar las primeras filas del DataFrame
print("Primeras filas del DataFrame:")
df.head()

In [6]:
# Análisis estadístico
print("Resumen estadístico:")
df.describe()

Resumen estadístico:


Unnamed: 0,id,host id,lat,long,Construction year,minimum nights,number of reviews,reviews per month,review rate number,calculated host listings count,availability 365,license
count,1000.0,1000.0,992.0,992.0,913.0,916.0,997.0,944.0,915.0,985.0,852.0,0.0
mean,1277210.0,49487800000.0,40.728213,-73.963373,2012.460022,19.19214,79.740221,0.921886,3.119126,2.383756,206.252347,
std,159515.0,28234450000.0,0.051694,0.033392,5.771298,123.454716,88.411084,0.965117,1.418854,4.434132,130.146924,
min,1001254.0,207127800.0,40.58147,-74.16534,2003.0,-12.0,0.0,0.01,1.0,1.0,-10.0,
25%,1139273.0,25493930000.0,40.68761,-73.98443,2007.0,2.0,15.0,0.23,2.0,1.0,87.0,
50%,1277210.0,49542160000.0,40.72197,-73.96089,2013.0,3.0,46.0,0.58,3.0,1.0,206.5,
75%,1415147.0,73929110000.0,40.757525,-73.948318,2017.0,7.0,117.0,1.32,4.0,2.0,322.0,
max,1553084.0,98668480000.0,40.89747,-73.76133,2022.0,3455.0,480.0,7.14,5.0,28.0,426.0,


In [7]:
# Información del DataFrame
print("Información del DataFrame:")
df.info()

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 26 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              1000 non-null   int64  
 1   NAME                            944 non-null    object 
 2   host id                         1000 non-null   int64  
 3   host_identity_verified          927 non-null    object 
 4   host name                       981 non-null    object 
 5   neighbourhood group             973 non-null    object 
 6   neighbourhood                   984 non-null    object 
 7   lat                             992 non-null    float64
 8   long                            992 non-null    float64
 9   country                         950 non-null    object 
 10  country code                    921 non-null    object 
 11  instant_bookable                921 non-null    object 
 12  cancella

2. Eliminación de Columnas Irrelevantes
Eliminar Columnas:
* Identifica y elimina las columnas que no son relevantes para el análisis (por ejemplo, columnas como id, host id, license).
* Asegúrate de que las columnas relevantes permanezcan en el DataFrame.

In [8]:
# Actividad 2: Eliminación de Columnas Irrelevantes

# Eliminar columnas no relevantes
columnas_a_eliminar = ['id', 'host id', 'license']
df = df.drop(columns=columnas_a_eliminar)

# Verificar columnas restantes
print("Columnas después de eliminación:")
print(df.columns)

Columnas después de eliminación:
Index(['NAME', 'host_identity_verified', 'host name', 'neighbourhood group',
       'neighbourhood', 'lat', 'long', 'country', 'country code',
       'instant_bookable', 'cancellation_policy', 'room type',
       'Construction year', 'price', 'service fee', 'minimum nights',
       'number of reviews', 'last review', 'reviews per month',
       'review rate number', 'calculated host listings count',
       'availability 365', 'house_rules'],
      dtype='object')



3. Manejo de Valores Nulos
Eliminar Valores Nulos:
* Utiliza el método dropna() para eliminar filas que contengan valores nulos.
* Verifica que los valores nulos hayan sido eliminados correctamente.

In [10]:
# Actividad 3: Manejo de Valores Nulos
data_null = data[data.isnull().any(axis=1)]
# Eliminar filas con valores nulos
df = df.dropna()

# Verificar si hay valores nulos restantes
print("Valores nulos restantes:")
print(df.isnull().sum())
print(df.shape)

Valores nulos restantes:
NAME                              0
host_identity_verified            0
host name                         0
neighbourhood group               0
neighbourhood                     0
lat                               0
long                              0
country                           0
country code                      0
instant_bookable                  0
cancellation_policy               0
room type                         0
Construction year                 0
price                             0
service fee                       0
minimum nights                    0
number of reviews                 0
last review                       0
reviews per month                 0
review rate number                0
calculated host listings count    0
availability 365                  0
house_rules                       0
dtype: int64
(363, 23)


4. Resúmenes con groupby
Agrupar y Resumir Datos:
* Agrupa los datos por neighbourhood group y calcula la cantidad de por cada Barrio 
* Muestra los resultados de esta agrupación.

In [21]:
# Actividad 4: Resúmenes con `groupby`

# Agrupar por 'neighbourhood group' y resumir precio y número de reseñas
resumen = df.groupby('neighbourhood group').agg("count").NAME
print("Resumen por 'neighbourhood group':")
resumen

Resumen por 'neighbourhood group':


neighbourhood group
Bronx              6
Brooklyn         171
Manhattan        162
Queens            18
Staten Island      6
Name: NAME, dtype: int64

5. Filtrado y Exportación de Datos
Filtrar Datos por País y Año de Construcción:

* Filtra el DataFrame para incluir solo las propiedades en los Estados Unidos (country == 'United States') y construidas después del año 2005.
Guarda este DataFrame filtrado en una nueva variable df_filtrado.
Exportar Datos Filtrados:

* Exporta el DataFrame df_filtrado a un nuevo archivo CSV llamado airbnb_filtrado.csv

In [24]:
# Actividad 5: Filtrado y Exportación de Datos

# Filtrar por país y año de construcción
df_filtrado = df[(df['neighbourhood group'] == 'Brooklyn') & (df['Construction year'] > 2015)]
df_filtrado


Unnamed: 0,NAME,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,...,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules
0,Clean & quiet apt home by the park,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,US,False,...,$966,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...
42,Beautiful Sunny Park Slope Brooklyn,verified,Alina,Brooklyn,South Slope,40.66278,-73.97966,United States,US,True,...,$370,$74,3.0,15.0,5/27/2019,0.39,2.0,1.0,33.0,"No smoking inside. Since I have a dog, there a..."
108,"Modern Brooklyn Apt., August sublet",unconfirmed,Ned,Brooklyn,Williamsburg,40.71459,-73.94844,United States,US,False,...,$589,$118,30.0,29.0,5/26/2018,0.40,1.0,1.0,83.0,This is a pretty quiet house in a residential ...
131,Sunny Room in New Condo,verified,Victoria,Brooklyn,Clinton Hill,40.68414,-73.96351,United States,US,False,...,$930,$186,3.0,260.0,7/3/2019,2.35,4.0,1.0,388.0,Please leave your shoes in the entranceway. I...
137,Sanctuary in East Flatbush,unconfirmed,Anna,Brooklyn,Flatlands,40.63188,-73.93248,United States,US,True,...,$96,$19,2.0,2.0,1/1/2019,0.02,4.0,1.0,334.0,"Please clean after yourself, wipe spilled wate..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
962,Luxury L-Shape Studio + 3 cats,unconfirmed,Bennett,Brooklyn,Sheepshead Bay,40.59721,-73.95149,United States,US,True,...,"$1,187",$237,30.0,3.0,12/4/2018,0.08,2.0,1.0,287.0,Clean sheets and towels will be provided. At ...
966,Beautiful Loft/10 min to Manhattan!,verified,Fowler,Brooklyn,Williamsburg,40.70400,-73.93285,United States,US,True,...,$827,$165,5.0,2.0,5/15/2015,0.02,4.0,1.0,2.0,Please take off your shoes when walking around...
977,Charming brownstone apartment,unconfirmed,Chapman,Brooklyn,Columbia St,40.68636,-74.00345,United States,US,False,...,$498,$100,2.0,106.0,6/24/2019,1.22,4.0,1.0,88.0,No Smoking No Pets
992,Big Beautiful Railroad in Brooklyn,unconfirmed,Payne,Brooklyn,Bushwick,40.70339,-73.92945,United States,US,True,...,$940,$188,30.0,53.0,6/30/2017,0.68,4.0,1.0,370.0,**The building has 5 units in total and all ot...


In [25]:
# Exportar el DataFrame filtrado a un nuevo archivo CSV
df_filtrado.to_csv('airbnb_filtrado.csv', index=False)

print("Datos filtrados exportados a 'airbnb_filtrado.csv'.")

Datos filtrados exportados a 'airbnb_filtrado.csv'.
