# Cities

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
df = pd.read_csv('p24-projet-pe-groupe-8/cities.csv', index_col='station_id')
df.head()

Unnamed: 0_level_0,city_name,country,state,iso2,iso3,latitude,longitude
station_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
41515,Asadabad,Afghanistan,Kunar,AF,AFG,34.866,71.150005
38954,Fayzabad,Afghanistan,Badakhshan,AF,AFG,37.129761,70.579247
41560,Jalalabad,Afghanistan,Nangarhar,AF,AFG,34.441527,70.436103
38947,Kunduz,Afghanistan,Kunduz,AF,AFG,36.727951,68.87253
38987,Qala i Naw,Afghanistan,Badghis,AF,AFG,34.983,63.1333


## Données générales sur la table 

In [4]:
print(df.ndim)
print(df.shape)
print(df.columns)

2
(1245, 7)
Index(['city_name', 'country', 'state', 'iso2', 'iso3', 'latitude',
       'longitude'],
      dtype='object')


Il y a donc 1245 ville étudiée selon 7 critères: le nom, le pays, l'état, le code iso2 et iso3 du pays, la latitude et la longitude.

In [5]:
df.describe()

Unnamed: 0,latitude,longitude
count,1245.0,1245.0
mean,23.729983,20.78244
std,25.996144,66.268905
min,-54.790003,-176.174022
25%,8.099982,-6.755003
50%,31.611105,23.237002
75%,43.69998,63.628302
max,78.216684,179.216647


In [6]:
print(f'On étudie {len(df['country'].unique())} pays différents :')
print(df['country'].unique())

On étudie 216 pays différents :
['Afghanistan' 'Albania' 'Algeria' 'American Samoa' 'Andorra' 'Angola'
 'Anguilla' 'Antigua and Barbuda' 'Argentina' 'Armenia' 'Aruba'
 'Australia' 'Austria' 'Azerbaijan' 'Bahrain' 'Bangladesh' 'Belarus'
 'Belgium' 'Belize' 'Benin' 'Bermuda' 'Bhutan' 'Bolivia'
 'Bosnia and Herzegovina' 'Botswana' 'Brazil' 'Brunei' 'Bulgaria'
 'Burkina Faso' 'Burundi' 'Cambodia' 'Cameroon' 'Canada' 'Cape Verde'
 'Cayman Islands' 'Central African Republic' 'Chad' 'Chile' 'China'
 'Christmas Island' 'Colombia' 'Comoros' 'Congo (Brazzaville)'
 'Congo (Kinshasa)' 'Cook Islands' 'Costa Rica' 'Croatia' 'Cuba' 'Cyprus'
 'Czech Republic' 'Denmark' 'Djibouti' 'Dominica' 'Dominican Republic'
 'East Timor' 'Ecuador' 'Egypt' 'El Salvador' 'Equatorial Guinea'
 'Estonia' 'Ethiopia' 'Falkland Islands' 'Fiji' 'Finland' 'France'
 'French Guiana' 'French Polynesia' 'French Southern and Antarctic Lands'
 'Gabon' 'Georgia' 'Germany' 'Ghana' 'Gibraltar' 'Greece' 'Greenland'
 'Grenada' 'Guam' 

In [7]:
print(f'on étudie {len(df['iso2'].unique())} pays différents')
print(f'on étudie toujours {len(df['iso3'].unique())} pays différents') #ça donne bien la même chose

on étudie 216 pays différents
on étudie toujours 216 pays différents


In [8]:
df['country'].value_counts() #plus précisemment le nombre de ville par pays

country
Russia                      77
United States of America    49
Turkey                      44
Thailand                    38
India                       29
                            ..
Tuvalu                       1
Wallis and Futuna            1
Vanuatu                      1
Yemen                        1
Western Sahara               1
Name: count, Length: 216, dtype: int64

In [9]:
df[['state', 'country']].value_counts() #on peut faire pareil avec les états

state                   country    
Ciudad de Buenos Aires  Argentina      3
Addis Ababa             Ethiopia       3
Fukuoka                 Japan          2
Krasnoyarsk             Russia         2
Dadra and Nagar Haveli  India          2
                                      ..
Zanzan                  Ivory Coast    1
Zanzibar West           Tanzania       1
Zeeland                 Netherlands    1
Zhambyl                 Kazakhstan     1
Agadez                  Niger          1
Name: count, Length: 1197, dtype: int64

In [10]:
df['longitude'].dtype

dtype('float64')

Les éléments de chaque colonne (sans compter l'index) sont de type chaîne de caractère sauf la longitude et la latitude qui sont des flotants.

## Analyse de la table

In [11]:
df['hemisphère'] = 'nord'
df.loc[df['latitude']<0, 'hemisphère'] = 'sud'
df['greenwich'] = 'est'
df.loc[df['longitude']<0, 'greenwich'] = 'ouest'
df.head()
df[df['hemisphère'] == 'sud'].head()
df[df['greenwich'] == 'ouest'].head()

Unnamed: 0_level_0,city_name,country,state,iso2,iso3,latitude,longitude,hemisphère,greenwich
station_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
60620,Adrar,Algeria,Adrar,DZ,DZA,27.86999,-0.289967,nord,ouest
60571,Béchar,Algeria,Béchar,DZ,DZA,31.611105,-2.230004,nord,ouest
60549,Sidi Bel Abbès,Algeria,Sidi Bel Abbès,DZ,DZA,35.190344,-0.639972,nord,ouest
60531,Tlemcen,Algeria,Tlemcen,DZ,DZA,34.890414,-1.320008,nord,ouest
91765,Pago Pago,American Samoa,,AS,ASM,-14.27661,-170.706645,sud,ouest


Ajoute une colonne à la dataframe nous permettant de savoir si la ville se trouve dans l'hemisphère nord ou dans l'hémisphère sud, à l'est ou à l'ouest de greenwish

In [12]:
df1 = df[['country', 'latitude', 'longitude']].groupby(by='country')
df1[['latitude', 'longitude']].mean()

Unnamed: 0_level_0,latitude,longitude
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,35.801037,68.318248
Albania,41.693098,19.923679
Algeria,35.231670,3.696405
American Samoa,-14.276610,-170.706645
Andorra,42.500001,1.516486
...,...,...
Wallis and Futuna,-13.282042,-176.174022
Western Sahara,27.154512,-13.195392
Yemen,15.353857,44.205884
Zambia,-14.281757,28.249996


Pour avoir la latitude et la longitude moyenne de chaque pays

J'ai également pensé à réaliser une sorte de quadrillage pour y représenter chaque ville en fonction de sa latitude et de sa longitude mais n'y suis pas parvenue.