In [1]:
import pandas as pd

In [2]:
# Cargar el archivo CSV
file_path = "../data/raw/london_airbnb.csv"
df = pd.read_csv(file_path)

In [3]:
# Número de filas y columnas.
num_filas = df.shape[0]
num_columnas = df.shape[1]

print(f"Número de filas: {num_filas}")
print(f"Número de columnas: {num_columnas}")

Número de filas: 85068
Número de columnas: 16


In [4]:
# Contar valores faltantes por columna
valores_faltantes = df.isnull().sum()

print("\nValores faltantes por columna:\n", valores_faltantes)


Valores faltantes por columna:
 id                                    0
name                                 25
host_id                               0
host_name                            12
neighbourhood_group               85068
neighbourhood                         0
latitude                              0
longitude                             0
room_type                             0
price                                 0
minimum_nights                        0
number_of_reviews                     0
last_review                       20006
reviews_per_month                 20006
calculated_host_listings_count        0
availability_365                      0
dtype: int64


In [5]:
# Obtener el tipo de datos de cada columna
tipos_de_datos = df.dtypes

print("\nTipos de datos por columna:\n", tipos_de_datos)


Tipos de datos por columna:
 id                                  int64
name                               object
host_id                             int64
host_name                          object
neighbourhood_group               float64
neighbourhood                      object
latitude                          float64
longitude                         float64
room_type                          object
price                               int64
minimum_nights                      int64
number_of_reviews                   int64
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int64
availability_365                    int64
dtype: object


In [6]:
# Número de valores únicos (unique) y total de valores únicos (nunique) por columna
valores_unicos = df.apply(lambda col: col.unique())
total_valores_unicos = df.nunique()

print("\nValores únicos por columna:\n", valores_unicos)
print("\nTotal de valores únicos por columna (nunique):\n", total_valores_unicos)


Valores únicos por columna:
 id                                [11551, 13913, 90700, 15400, 92399, 17402, 926...
name                              [Arty and Bright London Apartment in Zone 2, H...
host_id                           [43039, 54730, 491286, 60302, 497366, 67564, 4...
host_name                         [Adriano, Alina, Chil, Philippa, Andrea & Mark...
neighbourhood_group                                                           [nan]
neighbourhood                     [Lambeth, Islington, Kensington and Chelsea, W...
latitude                          [51.46225, 51.56802, 51.51074, 51.48796, 51.55...
longitude                         [-0.11732, -0.11121, -0.19853, -0.16898, -0.08...
room_type                         [Entire home/apt, Private room, Hotel room, Sh...
price                             [88, 65, 105, 100, 77, 300, 42, 79, 180, 29, 1...
minimum_nights                    [3, 1, 2, 30, 90, 10, 5, 6, 4, 7, 8, 20, 70, 1...
number_of_reviews                 [185, 19, 33

In [7]:
# Contar el número de ocurrencias de cada valor único por columna
frecuencia_valores_unicos = {col: df[col].value_counts() for col in df.columns}

print("\nFrecuencia de valores únicos por columna:\n")

# Imprimir la frecuencia de cada valor único en cada columna
for col, freq in frecuencia_valores_unicos.items():
    print(f"\nColumna: {col}")
    print(freq)


Frecuencia de valores únicos por columna:


Columna: id
11551       1
30242286    1
30241858    1
30291292    1
30290773    1
           ..
18221554    1
18177522    1
18177331    1
18151260    1
39869282    1
Name: id, Length: 85068, dtype: int64

Columna: name
Double room                                          37
Centrally Located Tower Hill/Aldagte East Studios    28
Luxury 2 Bed In Fulham Next To Fulham Broadway       22
Brick Lane Shoreditch Sanctuary                      22
Luxury 2 Bed In Maida Vale, Near Paddington          21
                                                     ..
Modern & Bright 1br apt with huge balcony/terrace     1
LOVELY, PRIVATE AND PEACEFUL DOUBLE ROOM              1
One bedroom Flat, 3 miutes from Abbey Road            1
Latte Circle Room London Close to Wimbledon           1
EXQUISITE APARTMENT, PEACEFUL ENVIRONMENT IN SOHO     1
Name: name, Length: 82447, dtype: int64

Columna: host_id
33889201     999
137094377    236
28820321     233
156158778  

In [8]:
# Aumenta el límite de filas a mostrar
pd.set_option('display.max_rows', None)
print(df['calculated_host_listings_count'].value_counts())

1      43535
2      11864
3       5022
4       3164
5       1760
6       1506
7       1141
999      999
8        920
10       750
9        675
12       672
11       583
14       434
16       432
15       420
20       420
19       418
17       391
18       360
31       341
27       324
21       315
13       299
24       264
22       242
48       240
236      236
233      233
29       232
25       225
220      220
36       216
213      213
101      202
50       200
23       184
183      183
60       180
35       175
173      173
84       168
28       168
42       168
33       165
51       153
30       150
49       147
144      144
47       141
69       138
135      135
45       135
26       130
64       128
40       120
59       118
58       116
115      115
38       114
37       111
54       108
53       106
52       104
99        99
98        98
46        92
89        89
87        87
85        85
41        82
39        78
75        75
74        74
73        73
72        72
70        70

In [10]:
# Filtrar las filas donde 'calculated_host_listings_count' es 999
df_999 = df[df['calculated_host_listings_count'] == 999]

# Comparar las columnas entre las filas
comparacion = df_999.eq(df_999.iloc[0], axis=1)

# Mostrar las filas donde todas las columnas tienen los mismos valores
filas_iguales = comparacion.all(axis=1)

# Filas donde todas las columnas son iguales entre sí
resultados_iguales = df_999[filas_iguales]

print(resultados_iguales)

Empty DataFrame
Columns: [id, name, host_id, host_name, neighbourhood_group, neighbourhood, latitude, longitude, room_type, price, minimum_nights, number_of_reviews, last_review, reviews_per_month, calculated_host_listings_count, availability_365]
Index: []


In [11]:
# Crear un DataFrame que muestre si los valores de las filas son iguales por columna
comparacion = df_999.apply(lambda col: col.nunique() == 1)

# Mostrar las columnas donde todas las filas tienen el mismo valor
columnas_similares = comparacion[comparacion == True].index.tolist()

print(f"Columnas con valores iguales en todas las filas: {columnas_similares}")

# Si quieres ver qué valor es el que se repite en esas columnas
valores_repetidos = df_999[columnas_similares].iloc[0]

print("Valores iguales compartidos por todas las filas en esas columnas:")
print(valores_repetidos)

Columnas con valores iguales en todas las filas: ['host_id', 'host_name', 'calculated_host_listings_count']
Valores iguales compartidos por todas las filas en esas columnas:
host_id                           33889201
host_name                            Veeve
calculated_host_listings_count         999
Name: 8471, dtype: object
