# Чтение и запись данных форматов .xlsx, .csv, .json. Работа с SQL, MongoDB.

### Цель работы 
Продемонстрировать навыки работы с файлами - чтение, запись, подключение к БД, написание SQL-запросов.


### Результат 
Файл формата .ipynb, показывающий уровень владения инструментами.

### Начало работы

Используя сервис WeatherAPI, получим прогноз погоды в Лондоне на следующие 2 дня. Ответ преобразуем к типу JSON.

In [1]:
import urllib.request as req
import json
import pandas as pd

days = 2
API_KEY = '051fd0dfead0431abf4103206230406'
url = f'http://api.weatherapi.com/v1/forecast.json?key={API_KEY}&q=London&days={days}'

with req.urlopen(url) as session:
    response = session.read().decode()
    data_1 = json.loads(response)   # для более комфортного чтения файла 
    
data_1

{'location': {'name': 'London',
  'region': 'City of London, Greater London',
  'country': 'United Kingdom',
  'lat': 51.52,
  'lon': -0.11,
  'tz_id': 'Europe/London',
  'localtime_epoch': 1695823539,
  'localtime': '2023-09-27 15:05'},
 'current': {'last_updated_epoch': 1695823200,
  'last_updated': '2023-09-27 15:00',
  'temp_c': 21.0,
  'temp_f': 69.8,
  'is_day': 1,
  'condition': {'text': 'Partly cloudy',
   'icon': '//cdn.weatherapi.com/weather/64x64/day/116.png',
   'code': 1003},
  'wind_mph': 12.5,
  'wind_kph': 20.2,
  'wind_degree': 170,
  'wind_dir': 'S',
  'pressure_mb': 1011.0,
  'pressure_in': 29.85,
  'precip_mm': 0.0,
  'precip_in': 0.0,
  'humidity': 69,
  'cloud': 75,
  'feelslike_c': 21.0,
  'feelslike_f': 69.8,
  'vis_km': 10.0,
  'vis_miles': 6.0,
  'uv': 5.0,
  'gust_mph': 17.2,
  'gust_kph': 27.7},
 'forecast': {'forecastday': [{'date': '2023-09-27',
    'date_epoch': 1695772800,
    'day': {'maxtemp_c': 20.9,
     'maxtemp_f': 69.6,
     'mintemp_c': 15.1,
   

Сохраним данные погоды, полученные в предыдущей задаче, в файл `weather.json`. При сохранении используем четыре пробела для форматирования.

In [2]:
with open ('file_2.json', 'w') as file_2:
    json.dump(data_1, file_2, indent=4)

Из содержимого файла `weather.json` получим **почасовой** прогноз погоды, загрузим его в DataFrame и выведем первые пять строк DataFrame на экран.

In [3]:
with open ('file_2.json', 'r') as file_2:
    json.load(file_2)

d = []

for i_day in range(days):
    d_outer = data_1['forecast']['forecastday'][i_day]
    d = d + d_outer['hour']

df_3 = pd.DataFrame(d)
df_3.head()

Unnamed: 0,time_epoch,time,temp_c,temp_f,is_day,condition,wind_mph,wind_kph,wind_degree,wind_dir,...,dewpoint_f,will_it_rain,chance_of_rain,will_it_snow,chance_of_snow,vis_km,vis_miles,gust_mph,gust_kph,uv
0,1695769200,2023-09-27 00:00,15.6,60.0,0,"{'text': 'Partly cloudy', 'icon': '//cdn.weath...",2.9,4.7,205,SSW,...,57.7,0,0,0,0,10.0,6.0,4.5,7.3,1.0
1,1695772800,2023-09-27 01:00,15.3,59.5,0,"{'text': 'Partly cloudy', 'icon': '//cdn.weath...",3.4,5.4,191,SSW,...,57.4,0,0,0,0,10.0,6.0,5.4,8.7,1.0
2,1695776400,2023-09-27 02:00,15.2,59.4,0,"{'text': 'Partly cloudy', 'icon': '//cdn.weath...",2.7,4.3,184,S,...,56.9,0,0,0,0,10.0,6.0,4.3,7.0,1.0
3,1695780000,2023-09-27 03:00,15.2,59.4,0,"{'text': 'Partly cloudy', 'icon': '//cdn.weath...",3.1,5.0,159,SSE,...,56.4,0,0,0,0,10.0,6.0,5.1,8.2,1.0
4,1695783600,2023-09-27 04:00,15.3,59.5,0,"{'text': 'Overcast', 'icon': '//cdn.weatherapi...",3.1,5.0,178,S,...,56.2,0,0,0,0,10.0,6.0,5.1,8.1,1.0


Сохраним DataFrame из предыдущей задачи в файл `result.csv`. В качестве названия столбца-индекса используем `index`.

In [4]:
df_3.to_csv('result.csv', index_label='index')

Загрузим содержимое SQL-таблицы `ratings` в DataFrame. Выведем первые пять строк DataFrame на экран.

In [5]:
import sqlalchemy
import psycopg2

connection = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/db_ds_students'

engine = sqlalchemy.create_engine(connection)
connect = engine.connect()

inspector = sqlalchemy.inspect(engine)
inspector.get_table_names()

df_5 = pd.read_sql('select * from ratings', connect)
df_5.head()

Unnamed: 0,userid,movieid,rating,timestamp
0,5953,1641,3.0,1432706281
1,5953,1644,3.0,1432706288
2,5953,1645,2.0,1432706317
3,5953,1653,5.0,1432706333
4,5953,1655,4.0,1432706275


Сохраним первые 10 000 записей датафрейма из предыдущей задачи в файл `result2.xlsx`, при сохранении зададим листу имя `MySheet`.

In [6]:
df_6 = df_5.head(10000)
df_6.to_excel('result2.xlsx', sheet_name='MySheet')

Определим количество документов в коллекции `users` в MongoDB. Если количество документов < 1 000, то в следующей ячейке загрузим всё содержимое этой коллекции в список и выведем нулевой элемент этого списка на экран.

In [7]:
import pymongo

conn = 'mongodb://students:X63673t47Gl03Sq@dsstudents.skillbox.ru:27017/?authSource=movies'
connect = pymongo.MongoClient(conn)

In [8]:
db_7 = connect['movies']
db_7.list_collection_names()

['tags', 'users']

In [9]:
users = db_7['users']

count = users.find()
counter = 0

for i_count in count:
    counter += 1
    
print('Количество документов в коллекции users -', counter)

Количество документов в коллекции users - 100


In [10]:
if counter < 1000:
    list_7 = list(users.find())
    
list_7[0]

{'_id': ObjectId('5cc69095067496679c74f7a4'),
 'user_id': 'ed5da480-57a2-489c-8e68-512155ab9892',
 'first_name': 'Жанна',
 'last_name': 'Петрова',
 'mail': 'zhanna_03816@gmail.com',
 'age': 20.0}

Преобразуем список всех документов коллекции `users` из предыдущей задачи в pandas DataFrame и сохраним его содержимое в файл `result3.xlsx`.

In [11]:
df_8 = pd.DataFrame(list_7)
df_8.to_excel('result3.xlsx')

Используя данные SQL-таблицы `ratings`, для каждого пользователя (столбец `userid`) определим средний рейтинг, который этот пользователь поставил фильмам. Результат выведем на экран. 

Группировку проведем двумя способами: с помощью `GROUP BY` в строке запроса к БД и с использованием метода `groupby` в pandas.

In [12]:
result_1 = df_5.groupby('userid')['rating'].mean().reset_index()
result_1

Unnamed: 0,userid,rating
0,1,4.277778
1,2,3.318182
2,3,3.100000
3,4,3.500000
4,5,4.269231
...,...,...
7951,7952,3.390244
7952,7953,3.567568
7953,7954,3.750000
7954,7955,4.150000


In [13]:
conn = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/db_ds_students'

engine = sqlalchemy.create_engine(conn)
connect = engine.connect()

result_2 = pd.read_sql('select userid, avg(rating) from ratings group by userid', connect).sort_values('userid')
result_2

Unnamed: 0,userid,avg
5840,1,4.277778
4130,2,3.318182
7138,3,3.100000
525,4,3.500000
282,5,4.269231
...,...,...
1906,7952,3.390244
3728,7953,3.567568
6399,7954,3.750000
6973,7955,4.150000


Объединим таблицы `ratings` и `keywords` по столбцам `movieid` (используем левое объединение). Объединение проведём двумя способами: с помощью `LEFT JOIN` в строке запроса к БД и с использованием метода `merge` в pandas. Результат объединения загрузим в DataFrame и сохраним в файл `result4.csv`.

При объединении возможно дублирование столбцов. В результирующем датафрейме не должно быть таких дублированных столбцов.

In [14]:
conn = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/db_ds_students'

engine = sqlalchemy.create_engine(connection)
connect = engine.connect()

res_1 = pd.read_sql('select * from keywords', connect)

res_1 = df_5.merge(res_1, how='left', on='movieid')

main_res = res_1.drop_duplicates()
main_res

Unnamed: 0,userid,movieid,rating,timestamp,tags
0,5953,1641,3.0,1432706281,"[{'id': 843, 'name': 'cataclysm'}, {'id': 3800..."
2,5953,1644,3.0,1432706288,"[{'id': 7172, 'name': 'buried alive'}]"
4,5953,1645,2.0,1432706317,"[{'id': 529, 'name': 'ku klux klan'}, {'id': 5..."
6,5953,1653,5.0,1432706333,"[{'id': 983, 'name': 'brazilian'}, {'id': 2020..."
8,5953,1655,4.0,1432706275,"[{'id': 456, 'name': 'mother'}, {'id': 1939, '..."
...,...,...,...,...,...
1118281,5953,1597,5.0,1432706312,"[{'id': 591, 'name': 'cia'}, {'id': 822, 'name..."
1118283,5953,1603,5.0,1432706302,
1118284,5953,1610,4.0,1432706328,"[{'id': 212, 'name': 'london england'}, {'id':..."
1118286,5953,1625,4.0,1432706275,


In [15]:
main_res.to_csv('result4.csv', index_label='index')

In [16]:
res_2 = pd.read_sql('SELECT * FROM keywords LEFT JOIN ratings ON keywords.movieid = ratings.movieid', connect)

result = res_2.drop_duplicates()
result

Unnamed: 0,movieid,tags,userid,movieid.1,rating,timestamp
0,1644,"[{'id': 7172, 'name': 'buried alive'}]",5953.0,1644.0,3.0,1.432706e+09
2,1687,"[{'id': 1612, 'name': 'spacecraft'}, {'id': 28...",5953.0,1687.0,4.0,1.432706e+09
4,1732,"[{'id': 1930, 'name': 'kidnapping'}, {'id': 41...",5953.0,1732.0,4.0,1.432706e+09
6,1917,"[{'id': 428, 'name': 'nurse'}, {'id': 2619, 'n...",5953.0,1917.0,4.0,1.432706e+09
8,1918,"[{'id': 549, 'name': 'prostitute'}, {'id': 559...",5953.0,1918.0,4.0,1.432706e+09
...,...,...,...,...,...,...
1445054,50461,[],,,,
1445056,37404,"[{'id': 1701, 'name': 'hero'}, {'id': 2035, 'n...",,,,
1445058,84104,"[{'id': 8873, 'name': 'yeti'}, {'id': 12105, '...",,,,
1445060,49009,"[{'id': 10685, 'name': 'escape'}, {'id': 14636...",,,,


In [17]:
# второй способ (чтобы таблицы были одинаковыми)

df_ratings = pd.read_sql("select * from ratings", connect)
df_keywords = pd.read_sql("select * from keywords", connect)

main_df = df_ratings.merge(df_keywords, how='left', on='movieid').drop_duplicates()
main_df

Unnamed: 0,userid,movieid,rating,timestamp,tags
0,5953,1641,3.0,1432706281,"[{'id': 843, 'name': 'cataclysm'}, {'id': 3800..."
2,5953,1644,3.0,1432706288,"[{'id': 7172, 'name': 'buried alive'}]"
4,5953,1645,2.0,1432706317,"[{'id': 529, 'name': 'ku klux klan'}, {'id': 5..."
6,5953,1653,5.0,1432706333,"[{'id': 983, 'name': 'brazilian'}, {'id': 2020..."
8,5953,1655,4.0,1432706275,"[{'id': 456, 'name': 'mother'}, {'id': 1939, '..."
...,...,...,...,...,...
1118281,5953,1597,5.0,1432706312,"[{'id': 591, 'name': 'cia'}, {'id': 822, 'name..."
1118283,5953,1603,5.0,1432706302,
1118284,5953,1610,4.0,1432706328,"[{'id': 212, 'name': 'london england'}, {'id':..."
1118286,5953,1625,4.0,1432706275,


In [18]:
main_df_2 = pd.read_sql('SELECT userid, ratings.movieid, rating, timestamp, tags FROM ratings LEFT JOIN keywords on ratings.movieid = keywords.movieid', connect).drop_duplicates()
main_df_2

Unnamed: 0,userid,movieid,rating,timestamp,tags
0,5953,1644,3.0,1432706288,"[{'id': 7172, 'name': 'buried alive'}]"
2,5953,1687,4.0,1432706273,"[{'id': 1612, 'name': 'spacecraft'}, {'id': 28..."
4,5953,1704,4.0,1432706308,
5,5953,1732,4.0,1432706332,"[{'id': 1930, 'name': 'kidnapping'}, {'id': 41..."
7,5953,1784,3.0,1432706311,
...,...,...,...,...,...
2125870,5953,1127,5.0,1432706315,"[{'id': 293, 'name': 'female nudity'}, {'id': ..."
2125872,5953,1213,4.0,1432706322,"[{'id': 110, 'name': 'venice'}, {'id': 131, 'n..."
2125874,5953,1431,3.0,1432706308,
2125875,5953,1466,5.0,1432706255,


Используя объединенную таблицу, найдем все идентификаторы фильмов с тегом `africa` (но не `south africa` или любые другие). Список тегов в формате JSON записан в столбце `tags`.

In [19]:
df_11 = main_df[main_df['tags'].str.contains("'africa'", na=False)]
df_11

Unnamed: 0,userid,movieid,rating,timestamp,tags
1697,5957,1672,5.0,1181077016,"[{'id': 90, 'name': 'paris'}, {'id': 378, 'nam..."
3213,5974,25874,2.5,1299345627,"[{'id': 409, 'name': 'africa'}, {'id': 2043, '..."
5183,5985,494,2.0,876014379,"[{'id': 90, 'name': 'paris'}, {'id': 409, 'nam..."
7371,6004,494,3.0,1046338105,"[{'id': 90, 'name': 'paris'}, {'id': 409, 'nam..."
7796,6004,2989,3.0,1046337964,"[{'id': 409, 'name': 'africa'}, {'id': 2043, '..."
...,...,...,...,...,...
1114618,5924,494,2.0,855412041,"[{'id': 90, 'name': 'paris'}, {'id': 409, 'nam..."
1114950,5928,494,3.0,844871089,"[{'id': 90, 'name': 'paris'}, {'id': 409, 'nam..."
1116853,5939,494,4.0,864327907,"[{'id': 90, 'name': 'paris'}, {'id': 409, 'nam..."
1117583,5949,494,4.0,833383110,"[{'id': 90, 'name': 'paris'}, {'id': 409, 'nam..."
