In [18]:
import pandas as pd
import numpy as np

# 1. 创建

## 创建df

In [21]:
frame1 = pd.DataFrame(
    {
        'name':["Alice","Bob","Caven"],
        'age':[18,19,20],
        'sex':["female","male","male"],
        'class':[3,2,7]
    }
)
frame1

Unnamed: 0,name,age,sex,class
0,Alice,18,female,3
1,Bob,19,male,2
2,Caven,20,male,7


## 创建series

在 `pandas` 中，新建一个 `Series` 是很简单的。你可以使用 `pandas.Series` 类来创建一个 `Series` 对象。以下是一些常见的方式来创建一个 `Series`：

### 1. 从列表或数组创建

你可以直接从一个 Python 列表或 NumPy 数组创建一个 `Series`：

```python
import pandas as pd

# 从列表创建 Series
data_list = [10, 20, 30, 40]
series_from_list = pd.Series(data_list)

print(series_from_list)
```

```plaintext
0    10
1    20
2    30
3    40
dtype: int64
```

### 2. 从字典创建

你也可以从一个字典创建一个 `Series`，字典的键将作为索引，值将作为数据：

```python
data_dict = {'a': 1, 'b': 2, 'c': 3}
series_from_dict = pd.Series(data_dict)

print(series_from_dict)
```

```plaintext
a    1
b    2
c    3
dtype: int64
```

### 3. 指定索引

创建 `Series` 时，你可以指定自定义的索引：

```python
data = [100, 200, 300]
index = ['x', 'y', 'z']
series_with_index = pd.Series(data, index=index)

print(series_with_index)
```

```plaintext
x    100
y    200
z    300
dtype: int64
```

```

### 总结

创建 `Series` 时，你可以根据数据来源的不同选择合适的方法：

- 从列表或数组：适合一维的简单数据。
- 从字典：适合将键作为索引的数据。
- 指定索引：适合需要自定义索引的情况。

## 添加新的列

In [None]:
# 利用str.len()遍历了表格中Name列的数据, 存在name_length这个series中
name_length = babynames["Name"].str.len()

# 创建新列, 值为name_length
babynames["name_lengths"] = name_length

## 删除列

使用 drop 方法删除列时，设置 axis=1 或 columns 参数。

使用 drop 方法删除行时，设置 axis=0 或 index 参数。

In [23]:
df_dropped = frame1.drop(columns = 'class')
df_dropped

Unnamed: 0,name,age,sex
0,Alice,18,female
1,Bob,19,male
2,Caven,20,male


## 删除行

In [24]:
df_dropped = frame1.drop(index = 2)
df_dropped

Unnamed: 0,name,age,sex,class
0,Alice,18,female,3
1,Bob,19,male,2


# 2.读取文件

## json : read_json("addr/data")

In [None]:
valid_zips = pd.read_json("data/sf_zipcodes.json")

# 3.查看基本信息

## shape,查看行属于列数

In [21]:
frame1.shape
frame1.shape[0]

3

## 查找最大最小值

使用`max`和`min`函数找出最大最小值的使用场景：

1. **数值列的最大值和最小值**：
   如果您的数据框中有数值类型的列，例如整数或浮点数，您可以使用`max`和`min`函数来找出这些列的最大值和最小值。

   ```python
   # 假设 ins 包含一个名为 'value' 的数值型列
   max_value = ins['value'].max()
   min_value = ins['value'].min()
   ```

2. **条件最大值和最小值**：
   您可以结合条件过滤和`max`/`min`函数来找出满足特定条件的行的最大值或最小值。

   ```python
   # 找出特定条件下的最大值
   max_value_condition = ins[ins['condition'] == True]['value'].max()

   # 找出特定条件下的最小值
   min_value_condition = ins[ins['condition'] == False]['value'].min()
   ```

3. **分组后的最大值和最小值**：
   使用`groupby`结合`max`/`min`可以对分组数据进行聚合，找出每组的最大值或最小值。

   ```python
   # 假设我们按 'category' 列分组，并找出每组的最大和最小 'value'
   grouped_max = ins.groupby('category')['value'].max()
   grouped_min = ins.groupby('category')['value'].min()
   ```

4. **跨列的最大值和最小值**：
   使用`idxmax`和`idxmin`可以找出每行或每列中的最大值和最小值的索引位置。

   ```python
   # 找出每行中 'value' 列的最大值所在列的索引
   idxmax_values = ins['value'].idxmax()

   # 找出每列中的最大值所在行的索引
   idxmax_across_columns = ins.idxmax(axis=1)
   ```

5. **时间序列的最大值和最小值**：
   对于时间序列数据，除了找出最早的和最晚的时间点外，您还可以使用`resample`进行时间序列的重采样，然后应用`max`/`min`来找出重采样时间段内的最大值和最小值。

   ```python
   # 重采样为每天的最大值和最小值
   daily_max = ins.set_index('timestamp').resample('D')['value'].max()
   daily_min = ins.set_index('timestamp').resample('D')['value'].min()
   ```


## values,查看numpy二维数组

In [14]:
frame1.values

array([['Alice', 18, 'female', 3],
       ['Bob', 19, 'male', 2],
       ['Caven', 20, 'male', 7]], dtype=object)

## 查询series中的个数可以用len()

In [27]:
series1 = pd.Series([1,2,3,4,5]) 
len(series1)

## dtypes['column']:查询列的类型

In [5]:
frame_type = frame1.dtypes['name']
print(frame_type)

object


## type(iloc[1,2])查询具体一个值的类型

In [None]:
ins_date_type = type(ins.loc[0,"date"])
ins_date_type

# 4.更改

## 更改列名

In [19]:
frame1 = frame1.rename(columns = {"sex":"gender"})
frame1

Unnamed: 0,name,age,gender,class
0,Alice,18,female,3
1,Bob,19,male,2
2,Caven,20,male,7


## 更改所有列名
如果你想按顺序更改 DataFrame 中的所有列名，你可以使用 DataFrame 的 `columns` 属性来指定一个新的列名列表。这里有一个简单的例子：

```python
import pandas as pd

# 假设你有一个名为 df 的 DataFrame
df = pd.DataFrame({
    'old_name1': [1, 2, 3],
    'old_name2': [4, 5, 6],
    'old_name3': [7, 8, 9]
})

# 你现在想要将所有列名更改为新的列名
new_column_names = ['new_name1', 'new_name2', 'new_name3']

# 你可以直接赋值给 df.columns 来更改所有列名
df.columns = new_column_names

# 查看更改后的 DataFrame
print(df)
```

输出将会是：

```
   new_name1  new_name2  new_name3
0          1          4          7
1          2          5          8
2          3          6          9
```

确保新的列名列表的长度与 DataFrame 中的列数相同，否则会引发错误。如果你想要按照某种模式或者顺序生成新的列名，你可以使用 Python 的列表推导式或者 `range` 函数来创建一个新列名列表。例如，如果你想要将所有列名更改为 "col_1", "col_2", "col_3" 等：

```python
df.columns = ['col_' + str(i) for i in range(1, len(df.columns) + 1)]
```

这将会生成一个新列名列表，并将其赋值给 `df.columns`。


## split(" ").str[0]: 指定分割并提取

In [None]:
ins["bid"] = ins["iid"].str.split("_").str[0]

## 重新设置index

In [1]:
import pandas as pd

data = {
    'id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
}
df = pd.DataFrame(data)
print(df)

   id     name  age
0   1    Alice   25
1   2      Bob   30
2   3  Charlie   35


In [2]:
df = df.set_index('id')
print(df)


       name  age
id              
1     Alice   25
2       Bob   30
3   Charlie   35


### 删除制定列/行 df.drop("name",axis = 0/1)

In [None]:
df.drop('column_name', axis=1)
df.drop('row_name', axis=0)

## 删除索引
在 Pandas 中，如果你想移除 DataFrame 的索引，可以使用以下几种方法：

1. 使用 `reset_index()` 方法：
   你可以使用 `reset_index()` 方法将 DataFrame 的索引重置为默认的整数索引。如果你想删除原来的索引列，可以设置 `drop=True`。
   ```python
   import pandas as pd
   my_df = pd.DataFrame({
       "Person": ["Alice", "Steven", "Neesham", "Chris", "Alice"],
       "City": ["Berlin", "Montreal", "Toronto", "Rome", "Munich"],
       "Mother Tongue": ["German", "French", "English", "Italian", "German"],
       "Age": [37, 20, 38, 23, 35]
   })
   my_df.index = ["A", "B", "C", "D", "E"]
   df_reset = my_df.reset_index(drop=True)
   ```

2. 使用 `set_index()` 方法：
   如果你想将某个列设置为索引并删除原来的索引，可以使用 `set_index()` 方法。设置 `drop=False` 可以保留原来的索引列作为数据的一部分。
   ```python
   my_df = my_df.set_index("Person", drop=False)
   ```

3. 使用 `drop()` 方法：
   如果你想删除特定的索引标签，可以使用 `drop()` 方法。
   ```python
   my_df = my_df.drop(index=["A", "B"])
   ```

4. 使用 `iloc` 函数：
   如果你想通过位置来选择数据并忽略索引，可以使用 `iloc` 函数。
   ```python
   my_df = my_df.iloc[0:3]  # 选择前三个数据
   ```

5. 使用 `Index.delete()` 方法：
   如果你想删除索引中的特定位置，可以使用 `Index.delete()` 方法。
   ```python
   idx = pd.Index(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun'])
   new_idx = idx.delete(0)  # 删除第一个索引
   ```

请注意，索引是 DataFrame 的一个重要组成部分，用于标识每行数据。在某些情况下，删除索引可能会影响数据的引用和操作。因此，在删除索引之前，请确保这是你想要的操作。


# 5. 转换

## 列转换成指定的type:astype()

In [None]:
valid_zips = valid_zips["zip_codes"].astype(str)

## 转换成datetime:pd.to_datetime()

https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html#pandas-to-datetime

In [None]:
ins['timestamp'] = pd.to_datetime("03-29-2003 12:23:39 AM", format='%m/%d/%Y %I:%M:%S %p')

这里的 `format` 参数解释如下：
- `%m` 表示月份（01 到 12）
- `%d` 表示日期（01 到 31）
- `%Y` 表示四位数的年份
- `%I` 表示12小时制的小时数（01 到 12）
- `%M` 表示分钟（00 到 59）
- `%S` 表示秒（00 到 59）
- `%p` 表示AM/PM指示器

使用这个格式字符串，`pd.to_datetime` 函数将能够正确解析您的日期时间列。如果您的列中包含多种不同的日期时间格式，您可能需要额外的逻辑来处理这些情况。


# 6. 筛选

## .isin 筛选出存在这个列表里的

In [None]:
bus.loc[~bus['postal5'].isin(valid_zips), 'postal5'] = None

## 对datetime格式的数据筛选出特定年份/月份/日等

在Pandas中，`Series.dt` 属性是一个访问器，它提供了对 datetime-like（类似日期时间）数据的丰富操作。当您的 Pandas `Series` 对象包含日期时间数据时，您可以使用 `.dt` 来执行各种与日期时间相关的操作。

`pandas.Series.dt.year` 是 `.dt` 访问器的一个属性，它用于提取 `Series` 中每个 datetime 值的年份部分。这将返回一个新的 `Series`，其中包含原始 datetime 对应的年份。

以下是使用 `pandas.Series.dt.year` 的一些示例：

1. **提取年份**：
   如果您有一个包含日期时间的 `Series`，您可以使用 `.dt.year` 来提取年份。

   ```python
   import pandas as pd

   # 创建一个包含日期时间的 Series
   dates = pd.Series(["2021-01-01", "2022-06-15", "2023-12-31"])
   # 确保 Series 是 datetime 类型
   dates = pd.to_datetime(dates)

   # 提取年份
   years = dates.dt.year
   print(years)
   ```

   输出将是：
   ```
   0    2021
   1    2022
   2    2023
   dtype: int64
   ```

2. **基于年份的筛选**：
   您可以使用提取的年份来筛选数据。

   ```python
   # 筛选出2022年的记录
   filtered_dates = dates[dates.dt.year == 2022]
   print(filtered_dates)
   ```

3. **与其他日期时间属性结合使用**：
   `.dt` 访问器提供了许多其他属性，如 `.month`, `.day`, `.hour`, `.minute` 等，您可以结合使用它们来执行更复杂的日期时间操作。

   ```python
   # 提取月份和日期
   months = dates.dt.month
   days = dates.dt.day
   ```

使用 `.dt` 访问器是处理日期时间数据的一种非常强大和方便的方式，它允许您快速访问和操作日期时间的组成部分。


# 7.判断

## .all(), 判断 pandas 对象中的所有元素是否都满足某个条件

### 判断一个列是不是都是True

In [None]:
s = pd.Series([True, True, True])
all_true = s.all()
print(all_true)  # 输出: True

# 8. pivot_table

## 基本概念

`pivot_table` 函数的作用是创建一个透视表，它类似于 Excel 中的数据透视表。你可以用它来对数据进行汇总、计算和转换，使数据更具可读性。

## 基本语法

```python
pandas.pivot_table(
    data, 
    values=None, 
    index=None, 
    columns=None, 
    aggfunc='mean', 
    fill_value=None, 
    dropna=True, 
    margins=False, 
    margins_name='All', 
    sort=True
)
```

## 参数说明

- **data**: 要进行透视的 DataFrame。
- **values**: 要汇总的列的名称。可以是单个列名或列名列表。如果省略，则会对所有数值列进行汇总。
- **index**: 要作为透视表行的列的名称。可以是单个列名或列名列表。
- **columns**: 要作为透视表列的列的名称。可以是单个列名或列名列表。
- **aggfunc**: 用于汇总数据的函数。默认是 `'mean'`（均值），也可以使用 `'sum'`（求和）、`'count'`（计数）、`'min'`（最小值）、`'max'`（最大值）等，也可以传入自定义函数。
- **fill_value**: 用于填充缺失值的值。如果没有填充，缺失值将保留为 NaN。
- **dropna**: 是否删除全为 NaN 的行或列。默认是 `True`。
- **margins**: 是否添加行和列的小计。默认是 `False`。
- **margins_name**: 小计行和列的名称。默认是 `'All'`。
- **sort**: 是否对结果进行排序。默认是 `True`。


## 示例

In [4]:
import pandas as pd

data = {
    '日期': ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02', '2024-01-03'],
    '地区': ['东区', '西区', '东区', '西区', '东区'],
    '销售额': [100, 200, 150, 250, 300]
}

df = pd.DataFrame(data)
df

Unnamed: 0,日期,地区,销售额
0,2024-01-01,东区,100
1,2024-01-01,西区,200
2,2024-01-02,东区,150
3,2024-01-02,西区,250
4,2024-01-03,东区,300


使用 pivot_table 来汇总销售额按日期和地区的统计信息：

In [5]:
pivot_table = df.pivot_table(
    values = '销售额',
    index = '日期',
    columns = '地区',
    aggfunc = 'sum',
    fill_value=0
)
pivot_table

地区,东区,西区
日期,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,100,200
2024-01-02,150,250
2024-01-03,300,0


## size和sum

在Pandas中，`size` 和 `sum` 是两种不同的聚合函数，它们在 `pivot_table` 或其他聚合操作中使用时有不同的行为：

1. **`size`**：
   - `size` 函数返回非NA/null值的数量。
   - 它通常用于计数，特别是在需要统计每个组中元素数量的场景中。
   - `size` 函数的结果是一个整数，表示每个组中的元素数。
   - 使用 `size` 进行聚合时，不会影响数据的类型（例如，不会将布尔值转换为整数）。

2. **`sum`**：
   - `sum` 函数返回数值的总和。
   - 它通常用于数值数据的求和，但也可以用来计算布尔值的“真”数量（因为 `True` 被当作 1，`False` 被当作 0）。
   - `sum` 函数的结果是一个数值，表示所有数值的总和。
   - 使用 `sum` 进行聚合时，结果的类型取决于输入数据的类型。

**区别**：
- 当使用 `size` 时，它只计算非空（NA/null）值的数量。这意味着如果一个组中所有值都是NA/null，`size` 的结果将是0。
- 当使用 `sum` 时，它会计算所有值的总和，包括布尔值（`True` 为 1，`False` 为 0）。如果一个组中所有值都是NA/null，`sum` 的结果将是NA/null。

**使用场景**：
- 如果你想统计每个组中的元素数量，使用 `size`。
- 如果你想计算数值的总和或布尔值的“真”数量，使用 `sum`。

例如，考虑以下数据：

```python
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [True, False, True, None],
    'C': ['x', 'y', None, 'z']
})
```

使用 `size` 和 `sum` 的结果如下：

```python
size_result = df.apply(pd.Series.nunique)
print(size_result)
# A    3
# B    2
# C    2
# dtype: int64

sum_result = df.apply(sum, axis=0)
print(sum_result)
# A    7.0
# B    1.0
# C    NaN
```

在这个例子中：
- `size` 计算了每列非空值的数量。
- `sum` 计算了每列的数值总和，对于布尔值 `True` 和 `False` 分别计算为 1 和 0，但对于非数值列（如 'C'），结果为 NaN。


# 9.pd.merge()

当然，`pandas` 的 `merge` 方法用于合并两个 DataFrame，类似于 SQL 中的 JOIN 操作。你可以根据一个或多个键来合并数据，从而生成一个新的 DataFrame。以下是 `merge` 方法的基本用法：

### 基本语法

```python
pandas.merge(
    left, 
    right, 
    how='inner', 
    on=None, 
    left_on=None, 
    right_on=None, 
    left_index=False, 
    right_index=False, 
    sort=True, 
    suffixes=('_x', '_y'), 
    indicator=False, 
    validate=None
)
```

### 参数说明

- **left**: 要合并的左侧 DataFrame。
- **right**: 要合并的右侧 DataFrame。
- **how**: 合并的方式，支持 `'left'`、`'right'`、`'outer'`、`'inner'`。默认是 `'inner'`。
  - `'left'`：左外连接,只保留左侧DataFrame (left) 中的所有行,右侧 DataFrame (right) 中没有匹配的行将填充 NaN。
  - `'right'`：右外连接,只保留右侧 DataFrame (right) 中的所有行。左侧 DataFrame (left) 中没有匹配的行将填充 NaN。
  - `'outer'`：全外连接,保留两个 DataFrame 中的所有行。
  - `'inner'`：内连接,只保留两个 DataFrame 中匹配的行.
- **on**: 用于连接的列名。如果指定了，`left_on` 和 `right_on` 会被忽略。
- **left_on**: 左侧 DataFrame 中用于连接的列名。
- **right_on**: 右侧 DataFrame 中用于连接的列名。
- **left_index**: 是否使用左侧 DataFrame 的索引作为连接键。默认是 `False`。
- **right_index**: 是否使用右侧 DataFrame 的索引作为连接键。默认是 `False`。
- **sort**: 是否对结果进行排序。默认是 `True`。
- **suffixes**: 连接时的后缀，用于处理重复列名。默认是 `('_x', '_y')`。
- **indicator**: 是否添加一列指示合并类型。默认是 `False`。
- **validate**: 验证连接的方式，如 `'one_to_one'`、`'one_to_many'`、`'many_to_one'`、`'many_to_many'`。

In [13]:
import pandas as pd

df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Charlie']
})

df2 = pd.DataFrame({
    'id': [2, 3, 4],
    'age': [24, 25, 30]
})

In [17]:
merged_table = pd.merge(
    df1,
    df2,
    on='id',
    how = 'inner'
)
merged_table

Unnamed: 0,id,name,age
0,2,Bob,24
1,3,Charlie,25


# explode()

`explode()` 是 `pandas` 库中的一个方法，用于处理数据中的列表或其他可迭代对象。当你有一个包含列表（或类似可迭代对象）的列时，`explode()` 可以将这些列表“展开”成单独的行，每个列表中的元素成为单独的一行。

### 示例

假设你有一个 `DataFrame`，其中有一列包含列表：

```python
import pandas as pd

# 创建一个包含列表的DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Hobbies': [['Reading', 'Hiking'], ['Cooking'], ['Drawing', 'Cycling', 'Swimming']]
})

print(df)
```

输出是：

```
      Name                  Hobbies
0    Alice       [Reading, Hiking]
1      Bob                  [Cooking]
2  Charlie  [Drawing, Cycling, Swimming]
```

如果你对 `Hobbies` 列使用 `explode()`，它将把每个列表中的元素展开成单独的行：

```python
# 使用explode()展开'Hobbies'列
df_exploded = df.explode('Hobbies')

print(df_exploded)
```

输出是：

```
      Name   Hobbies
0    Alice   Reading
0    Alice    Hiking
1      Bob   Cooking
2  Charlie   Drawing
2  Charlie   Cycling
2  Charlie  Swimming
```

### 使用场景

- **数据清洗**：当处理数据时，有时需要将列表型数据展开为多个行，以便进行进一步的分析或处理。
- **数据变换**：可以将多重记录（比如一个用户的多个爱好）转换成适合进行统计和分析的格式。

`explode()` 是一个非常有用的工具，尤其在处理嵌套数据结构时，可以帮助你将数据转化为更平坦的结构。

# df和series运用sort_values()的区别

`sort_values()` 方法可以用于 `pandas.Series` 和 `pandas.DataFrame` 对象，但它们的使用方式略有不同。让我们详细讨论一下。

### `sort_values()` 用于 `pandas.Series`

对于 `pandas.Series`，`sort_values()` 方法用于对 `Series` 的值进行排序，并返回一个新的排序后的 `Series`。索引保持不变。

**示例:**

```python
import pandas as pd

# 创建一个 Series
s = pd.Series([3, 1, 2], index=['a', 'b', 'c'])

# 对 Series 进行排序
s_sorted = s.sort_values()

print(s_sorted)
```

**输出:**

```
b    1
c    2
a    3
dtype: int64
```

在这个示例中，`s.sort_values()` 返回一个新的 `Series`，其中的值已经按照升序排序，索引保持不变。

### `sort_values()` 用于 `pandas.DataFrame`

对于 `pandas.DataFrame`，`sort_values()` 方法用于对一个或多个列的值进行排序。你可以指定一个或多个列来排序，并且可以设置升序或降序。

**示例:**

```python
import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': [3, 1, 2],
    'B': [4, 2, 3]
}, index=['a', 'b', 'c'])

# 对 DataFrame 按照列 'A' 进行排序
df_sorted = df.sort_values(by='A')

print(df_sorted)
```

**输出:**

```
   A  B
b  1  2
c  2  3
a  3  4
```

在这个示例中，`df.sort_values(by='A')` 返回一个新的 `DataFrame`，其中的行按照列 `A` 的值进行排序。

### 使用 `sort_values()` 的参数

- **`by`**: 指定排序的列（对于 `DataFrame`）或直接应用于值（对于 `Series`）。
- **`ascending`**: 布尔值或布尔值列表，指定排序顺序。`True` 为升序，`False` 为降序。
- **`inplace`**: 布尔值，是否在原地修改对象，默认为 `False`。如果设置为 `True`，则会对原始对象进行修改，而不是返回一个新的对象。

### 总结

- 对于 `pandas.Series`，`sort_values()` 可以用来对 `Series` 的值进行排序，返回一个新的 `Series`。
- 对于 `pandas.DataFrame`，`sort_values()` 可以用来对指定列的值进行排序，返回一个新的 `DataFrame`。
- 两者都可以使用 `ascending` 和 `inplace` 参数来控制排序顺序和是否原地修改。

### 注意

如果你对 `Series` 进行排序，并且需要保持索引对应的顺序，`sort_values()` 会返回一个新的 `Series`，其中值已经排序，而索引顺序会按照排序后的值的顺序排列。

# Series.str.extract(pat,flags=0,expand=True)

- pat: 字符串类型，正则表达式模式，用于匹配要提取的内容。
- flags: 可选，正则表达式的标志，如 re.IGNORECASE 等。
- expand: 布尔值，默认为 True。如果为 True，返回的结果是 DataFrame；如果为 False，返回的结果是 Series。

# np.where(condition,true_execution,false_execution)

判断data["Neighborhood Code"].isin(neighborhoods), true时在data['in_expensive_neighborhood']对应行中插入1,false时插入0

In [None]:
data['in_expensive_neighborhood'] = np.where(data["Neighborhood Code"].isin(neighborhoods),int(1),int(0))