# Limpieza de los datos de los equipos
Una vez obtenidos los datos de los equipos de la liga polaca de voleibol, el objetivo ahora será efectuar una limpieza de datos de los mismos. Por lo tanto, se buscará seguir las siguientes directrices:
- Unificar el mismo equipo que pueda haber tenido distintos nombres a lo largo del tiempo
- Identificar las diferentes ciudades de los equipos
- Crear un identificador (primary key) para cada equipo

In [1]:
import pandas as pd

In [3]:
# Cargar el archivo de los equipos
path = 'C:/Users/soler/Desktop/My_works/volleyball-database/data/raw/plusliga_teams_unique.csv'
teams_raw = pd.read_csv(path)

In [8]:
teams_raw

Unnamed: 0,team
0,1044 - GWARDIA WROCŁAW
1,AKS RESOVIA RZESZÓW
2,Aluron CMC Warta Zawiercie
3,Aluron Virtu CMC Zawiercie
4,Aluron Virtu Warta Zawiercie
...,...
109,Wkręt-met AZS Częstochowa
110,ZAK SA KĘDZIERZYN-KOŹLE
111,ZAKSA Kędzierzyn-Koźle
112,Łuczniczka Bydgoszcz


En total se extrajeron 114 equipos pero muchos de ellos están repetidos con nombres parecidos o en mayúscula, minúscula, etc... 

## 1 - WROCŁAW
El primer equipo que encontramos es el 1044 - GWARDIA WROCŁAW que tiene tres palabras claves

In [14]:
# Convertimos todo a minúscula 
teams_raw_lower = teams_raw['team'].str.lower()

In [17]:
teams_raw_lower[teams_raw_lower.str.contains('wrocław')]

0      1044 - gwardia wrocław
40    hefra - gwardia wrocław
59         ks gwardia wrocław
Name: team, dtype: object

In [18]:
teams_raw_lower[teams_raw_lower.str.contains('gwardia')]

0      1044 - gwardia wrocław
40    hefra - gwardia wrocław
59         ks gwardia wrocław
Name: team, dtype: object

In [21]:
teams_raw_lower[teams_raw_lower.str.contains('ks')]

1                     aks resovia rzeszów
16                    bks visła bydgoszcz
17                bksch delecta bydgoszcz
29                     eks skra bełchatów
37                           gks katowice
38     grupa azoty zaksa kędzierzyn-koźle
57                 ks azs częstochowa ssa
58                        ks citroen nysa
59                     ks gwardia wrocław
60            ks ivett jastrzębie borynia
61                         ks jadar radom
62             ks jastrzębski węgiel s.a.
63                               ks morze
64                      ks morze szczecin
65                                ks nysa
66                     ks pzu azs olsztyn
69                     mks banimex będzin
70                             mks będzin
77                           nks nto nysa
78                               nks nysa
80                 nowak-mosty mks będzin
111                zaksa kędzierzyn-koźle
Name: team, dtype: object

Con respecto a la ciudad Wrocław, solo existe un equipo al que denominaremos Gwardia Wrocław

In [23]:
# Renombramos la columna team como team_raw para evitar confusion
teams_raw = teams_raw.rename(columns={'team':'team_raw'})

In [26]:
index_wroclaw = teams_raw_lower[teams_raw_lower.str.contains('wrocław')].index

In [29]:
teams_raw['Team'] = teams_raw['team_raw']
teams_raw['Team'][index_wroclaw] = 'Gwardia Wrocław'

In [41]:
teams_raw['Team'][index_wroclaw]

0     Gwardia Wrocław
40    Gwardia Wrocław
59    Gwardia Wrocław
Name: Team, dtype: object

In [37]:
teams_raw

Unnamed: 0,team_raw,Team,City
0,1044 - GWARDIA WROCŁAW,Gwardia Wrocław,Wrocław
1,AKS RESOVIA RZESZÓW,AKS RESOVIA RZESZÓW,Na
2,Aluron CMC Warta Zawiercie,Aluron CMC Warta Zawiercie,Na
3,Aluron Virtu CMC Zawiercie,Aluron Virtu CMC Zawiercie,Na
4,Aluron Virtu Warta Zawiercie,Aluron Virtu Warta Zawiercie,Na
...,...,...,...
109,Wkręt-met AZS Częstochowa,Wkręt-met AZS Częstochowa,Na
110,ZAK SA KĘDZIERZYN-KOŹLE,ZAK SA KĘDZIERZYN-KOŹLE,Na
111,ZAKSA Kędzierzyn-Koźle,ZAKSA Kędzierzyn-Koźle,Na
112,Łuczniczka Bydgoszcz,Łuczniczka Bydgoszcz,Na


In [35]:
teams_raw['City'][index_wroclaw] = 'Wrocław'

## 2 - RZESZÓW

In [61]:
teams_raw_lower[(teams_raw_lower.str.contains('resovia')) | (teams_raw_lower.str.contains('rzeszów')) 
                | (teams_raw_lower.str.contains('asseco')) ]

1        aks resovia rzeszów
5             asseco resovia
6     asseco resovia rzeszów
7      asseco resovia s.s.a.
94       resovia ssa rzeszów
Name: team, dtype: object

In [62]:
index_rzesow = teams_raw_lower[(teams_raw_lower.str.contains('resovia')) | (teams_raw_lower.str.contains('rzeszów')) 
                | (teams_raw_lower.str.contains('asseco')) ].index

In [63]:
index_rzesow

Index([1, 5, 6, 7, 94], dtype='int64')

In [81]:
teams_raw['Team'][index_rzesow] = 'Resovia Rzeszów'

1     Resovia Rzeszów
5     Resovia Rzeszów
6     Resovia Rzeszów
7     Resovia Rzeszów
94    Resovia Rzeszów
Name: Team, dtype: object

In [82]:
teams_raw['City'][index_rzesow] = 'Rzeszów'

In [83]:
teams_raw.iloc[index_rzesow]

Unnamed: 0,team_raw,Team,City
1,AKS RESOVIA RZESZÓW,Resovia Rzeszów,Rzeszów
5,Asseco Resovia,Resovia Rzeszów,Rzeszów
6,Asseco Resovia Rzeszów,Resovia Rzeszów,Rzeszów
7,ASSECO RESOVIA S.S.A.,Resovia Rzeszów,Rzeszów
94,RESOVIA SSA RZESZÓW,Resovia Rzeszów,Rzeszów


## 3 - Zawiercie

In [89]:
teams_raw_lower[(teams_raw_lower.str.contains('zawiercie')) | (teams_raw_lower.str.contains('aluron')) |
               (teams_raw_lower.str.contains('warta')) | (teams_raw_lower.str.contains('virtu'))
               | (teams_raw_lower.str.contains('cmc'))]

2      aluron cmc warta zawiercie
3      aluron virtu cmc zawiercie
4    aluron virtu warta zawiercie
Name: team, dtype: object

In [90]:
index_zawiercie = teams_raw_lower[(teams_raw_lower.str.contains('zawiercie')) | (teams_raw_lower.str.contains('aluron')) |
               (teams_raw_lower.str.contains('warta')) | (teams_raw_lower.str.contains('virtu'))
               | (teams_raw_lower.str.contains('cmc'))].index

In [94]:
teams_raw['Team'][index_zawiercie] = 'Warta Zawiercie'
teams_raw['City'][index_zawiercie] = 'Zawiercie'

In [95]:
teams_raw.iloc[index_zawiercie]

Unnamed: 0,team_raw,Team,City
2,Aluron CMC Warta Zawiercie,Warta Zawiercie,Zawiercie
3,Aluron Virtu CMC Zawiercie,Warta Zawiercie,Zawiercie
4,Aluron Virtu Warta Zawiercie,Warta Zawiercie,Zawiercie


## 4 - Częstochowa

In [98]:
teams_raw_lower[(teams_raw_lower.str.contains('częstochowa')) | (teams_raw_lower.str.contains('norwid')) | 
               (teams_raw_lower.str.contains('hermarpol'))]

8                             azs częstochowa
27                domex tytan azs częstochowa
32         exact systems hemarpol częstochowa
34      galaxia jurajska azs bank częstochowa
35     galaxia pamapol kaffee azs częstochowa
36       galaxia starter bank częstochowa azs
57                     ks azs częstochowa ssa
83                    pamapol azs częstochowa
84              pamapol domex azs częstochowa
98          steam hemarpol norwid częstochowa
105                     tytan azs częstochowa
108         wkręt - met domex azs częstochowa
109                 wkręt-met azs częstochowa
Name: team, dtype: object

Tras una breve investigación, llegamos a la conclusión que hay dos equipos en Częstochowa:
- AZS Częstochowa: club histórico desaparecido
- Norwid Częstochowa

In [99]:
# indices del azs częstochowa
index_azs_czestochowa = teams_raw_lower[(teams_raw_lower.str.contains('azs częstochowa'))
                                        | (teams_raw_lower.str.contains('bank częstochowa'))].index

In [103]:
teams_raw['Team'][index_azs_czestochowa] = 'AZS Częstochowa'
teams_raw['City'][index_azs_czestochowa] = 'Częstochowa'

In [104]:
teams_raw.iloc[index_azs_czestochowa]

Unnamed: 0,team_raw,Team,City
8,AZS Częstochowa,AZS Częstochowa,Częstochowa
27,Domex Tytan AZS Częstochowa,AZS Częstochowa,Częstochowa
34,GALAXIA JURAJSKA AZS BANK CZĘSTOCHOWA,AZS Częstochowa,Częstochowa
35,GALAXIA PAMAPOL KAFFEE AZS CZĘSTOCHOWA,AZS Częstochowa,Częstochowa
36,GALAXIA STARTER BANK CZĘSTOCHOWA AZS,AZS Częstochowa,Częstochowa
57,KS AZS CZĘSTOCHOWA SSA,AZS Częstochowa,Częstochowa
83,PAMAPOL AZS CZĘSTOCHOWA,AZS Częstochowa,Częstochowa
84,PAMAPOL DOMEX AZS CZĘSTOCHOWA,AZS Częstochowa,Częstochowa
105,Tytan AZS Częstochowa,AZS Częstochowa,Częstochowa
108,WKRĘT - MET DOMEX AZS CZĘSTOCHOWA,AZS Częstochowa,Częstochowa


In [105]:
# Indices del Norwid Czestochowa
index_norwid_czestochowa = teams_raw_lower[(teams_raw_lower.str.contains('hemarpol częstochowa'))
                                        | (teams_raw_lower.str.contains('norwid częstochowa'))].index

In [107]:
teams_raw['Team'][index_norwid_czestochowa] = 'Norwid Częstochowa'
teams_raw['City'][index_norwid_czestochowa] = 'Częstochowa'

## 5 - Warszawa

In [112]:
teams_raw_lower[(teams_raw_lower.str.contains('warszawa')) | (teams_raw_lower.str.contains('politechnika'))
               | (teams_raw_lower.str.contains('warszawska'))]

9                              azs politechnika warszawa
10                           azs politechnika warszawska
44         j.w. construction azs politechnika warszawska
45     j.w. construction osram azs politechnika warsz...
46     j.w.construction osram azs politechnika warsza...
76                neckermann azs politechnika warszawska
81                     onico azs politechnika warszawska
82                                        onico warszawa
88                                  pge projekt warszawa
90                                      projekt warszawa
106                          verva warszawa orlen paliwa
Name: team, dtype: object

Tras buscar información, llegamos a la conclusión que todos son el mismo equipo, que actualmente se llama PGE Projekt Warszawa

In [113]:
index_warszawa = teams_raw_lower[(teams_raw_lower.str.contains('warszawa')) | (teams_raw_lower.str.contains('politechnika'))
               | (teams_raw_lower.str.contains('warszawska'))].index

In [115]:
teams_raw['Team'][index_warszawa] = 'PGE Projekt Warszawa'
teams_raw['City'][index_warszawa] = 'Warszawa'

In [116]:
teams_raw.iloc[index_warszawa]

Unnamed: 0,team_raw,Team,City
9,AZS POLITECHNIKA WARSZAWA,PGE Projekt Warszawa,Warszawa
10,AZS Politechnika Warszawska,PGE Projekt Warszawa,Warszawa
44,J.W. CONSTRUCTION AZS POLITECHNIKA WARSZAWSKA,PGE Projekt Warszawa,Warszawa
45,J.W. CONSTRUCTION OSRAM AZS POLITECHNIKA WARSZ...,PGE Projekt Warszawa,Warszawa
46,J.W.Construction OSRAM AZS Politechnika Warsza...,PGE Projekt Warszawa,Warszawa
76,Neckermann AZS Politechnika Warszawska,PGE Projekt Warszawa,Warszawa
81,ONICO AZS Politechnika Warszawska,PGE Projekt Warszawa,Warszawa
82,ONICO Warszawa,PGE Projekt Warszawa,Warszawa
88,PGE Projekt Warszawa,PGE Projekt Warszawa,Warszawa
90,Projekt Warszawa,PGE Projekt Warszawa,Warszawa


## 6 -  Nysa

In [120]:
teams_raw_lower[(teams_raw_lower.str.contains('nysa'))]

11      azs pwsz nysa
58    ks citroen nysa
65            ks nysa
77       nks nto nysa
78           nks nysa
91      psg stal nysa
97          stal nysa
Name: team, dtype: object

In [121]:
index_nysa = teams_raw_lower[(teams_raw_lower.str.contains('nysa'))].index

In [122]:
teams_raw['Team'][index_nysa] = 'Stal Nysa'
teams_raw['City'][index_nysa] = 'Nysa'

In [123]:
teams_raw.iloc[index_nysa]

Unnamed: 0,team_raw,Team,City
11,AZS PWSZ NYSA,Stal Nysa,Nysa
58,KS CITROEN NYSA,Stal Nysa,Nysa
65,KS NYSA,Stal Nysa,Nysa
77,NKS NTO NYSA,Stal Nysa,Nysa
78,NKS NYSA,Stal Nysa,Nysa
91,PSG Stal Nysa,Stal Nysa,Nysa
97,Stal Nysa,Stal Nysa,Nysa


## 7 - Olsztyn 

In [124]:
teams_raw_lower[(teams_raw_lower.str.contains('olsztyn'))]

12             azs uwm olsztyn
41        indykpol azs olsztyn
42    indykpol azs uwm olsztyn
66          ks pzu azs olsztyn
71         mlekpol azs olsztyn
92             pzu azs olsztyn
Name: team, dtype: object

In [125]:
index_olsztyn = teams_raw_lower[(teams_raw_lower.str.contains('olsztyn'))].index

In [126]:
teams_raw['Team'][index_olsztyn] = 'AZS Olsztyn'
teams_raw['City'][index_olsztyn] = 'Olsztyn'

In [127]:
teams_raw.iloc[index_olsztyn]

Unnamed: 0,team_raw,Team,City
12,AZS UWM Olsztyn,AZS Olsztyn,Olsztyn
41,Indykpol AZS Olsztyn,AZS Olsztyn,Olsztyn
42,Indykpol AZS UWM Olsztyn,AZS Olsztyn,Olsztyn
66,KS PZU AZS OLSZTYN,AZS Olsztyn,Olsztyn
71,MLEKPOL AZS OLSZTYN,AZS Olsztyn,Olsztyn
92,PZU AZS OLSZTYN,AZS Olsztyn,Olsztyn


## 8 -  Lwów
A pesar de ser una ciudad ucraniana, desde 2022 juega en la Plus Liga polaca

In [130]:
teams_raw_lower[(teams_raw_lower.str.contains('lwów')) | (teams_raw_lower.str.contains('barkom'))
               | (teams_raw_lower.str.contains('każany'))]

13    barkom każany lwów
Name: team, dtype: object

In [131]:
index_lwow = teams_raw_lower[(teams_raw_lower.str.contains('lwów')) | (teams_raw_lower.str.contains('barkom'))
               | (teams_raw_lower.str.contains('każany'))].index

In [132]:
teams_raw['Team'][index_lwow] = 'Barkom-Każany Lwów'
teams_raw['City'][index_lwow] = 'Lwów'

In [133]:
teams_raw.iloc[index_lwow]

Unnamed: 0,team_raw,Team,City
13,Barkom Każany Lwów,Barkom-Każany Lwów,Lwów


## 9 - Bielsko-Biała

In [134]:
teams_raw_lower[(teams_raw_lower.str.contains('bbts')) | (teams_raw_lower.str.contains('bielsko'))
               | (teams_raw_lower.str.contains('biała'))]

14                      bbts bielsko-biała
15    bbts siatkarz original bielsko-biała
Name: team, dtype: object

In [135]:
index_bielsko_biala = teams_raw_lower[(teams_raw_lower.str.contains('bbts')) | (teams_raw_lower.str.contains('bielsko'))
               | (teams_raw_lower.str.contains('biała'))].index

In [136]:
teams_raw['Team'][index_bielsko_biala] = 'BBTS Bielsko-Biała'
teams_raw['City'][index_bielsko_biala] = 'Bielsko-Biała'

In [137]:
teams_raw.iloc[index_bielsko_biala]

Unnamed: 0,team_raw,Team,City
14,BBTS Bielsko-Biała,BBTS Bielsko-Biała,Bielsko-Biała
15,BBTS SIATKARZ ORIGINAL BIELSKO-BIAŁA,BBTS Bielsko-Biała,Bielsko-Biała


## 10 - Bydgoszcz

In [138]:
teams_raw_lower[(teams_raw_lower.str.contains('bydgoszcz')) | (teams_raw_lower.str.contains('visła'))
               | (teams_raw_lower.str.contains('BKS'))]

16         bks visła bydgoszcz
17     bksch delecta bydgoszcz
22            chemik bydgoszcz
26           delecta bydgoszcz
102         transfer bydgoszcz
112       łuczniczka bydgoszcz
Name: team, dtype: object

In [139]:
index_bydgoszcz = teams_raw_lower[(teams_raw_lower.str.contains('bydgoszcz')) | (teams_raw_lower.str.contains('visła'))
               | (teams_raw_lower.str.contains('BKS'))].index

In [140]:
teams_raw['Team'][index_bydgoszcz] = 'BKS Visła Bydgoszcz'
teams_raw['City'][index_bydgoszcz] = 'Bydgoszcz'

In [141]:
teams_raw.iloc[index_bydgoszcz]

Unnamed: 0,team_raw,Team,City
16,BKS Visła Bydgoszcz,BKS Visła Bydgoszcz,Bydgoszcz
17,BKSCh Delecta Bydgoszcz,BKS Visła Bydgoszcz,Bydgoszcz
22,Chemik Bydgoszcz,BKS Visła Bydgoszcz,Bydgoszcz
26,Delecta Bydgoszcz,BKS Visła Bydgoszcz,Bydgoszcz
102,Transfer Bydgoszcz,BKS Visła Bydgoszcz,Bydgoszcz
112,Łuczniczka Bydgoszcz,BKS Visła Bydgoszcz,Bydgoszcz


## 11 - Lublin

In [142]:
teams_raw_lower[(teams_raw_lower.str.contains('lublin')) | (teams_raw_lower.str.contains('luk'))
               | (teams_raw_lower.str.contains('bogdanka'))]

18    bogdanka luk lublin
68             luk lublin
Name: team, dtype: object

In [143]:
index_lublin = teams_raw_lower[(teams_raw_lower.str.contains('lublin')) | (teams_raw_lower.str.contains('luk'))
               | (teams_raw_lower.str.contains('bogdanka'))].index

In [144]:
teams_raw['Team'][index_lublin] = 'Luk Lublin'
teams_raw['City'][index_lublin] = 'Lublin'

In [145]:
teams_raw.iloc[index_lublin]

Unnamed: 0,team_raw,Team,City
18,BOGDANKA LUK Lublin,Luk Lublin,Lublin
68,LUK Lublin,Luk Lublin,Lublin


## 12 - Bełchatów

In [146]:
teams_raw_lower[(teams_raw_lower.str.contains('bełchatów')) | (teams_raw_lower.str.contains('bot'))
               | (teams_raw_lower.str.contains('skra'))]

19         bot skra bełchatów
29         eks skra bełchatów
87    pge giek skra bełchatów
89         pge skra bełchatów
96             skra bełchatów
Name: team, dtype: object

In [147]:
index_belchatow = teams_raw_lower[(teams_raw_lower.str.contains('bełchatów')) | (teams_raw_lower.str.contains('bot'))
               | (teams_raw_lower.str.contains('skra'))].index

In [148]:
teams_raw['Team'][index_belchatow] = 'Skra Bełchatów'
teams_raw['City'][index_belchatow] = 'Bełchatów'

In [150]:
teams_raw.iloc[index_belchatow]

Unnamed: 0,team_raw,Team,City
19,BOT SKRA BEŁCHATÓW,Skra Bełchatów,Bełchatów
29,EKS SKRA BEŁCHATÓW,Skra Bełchatów,Bełchatów
87,PGE GiEK SKRA Bełchatów,Skra Bełchatów,Bełchatów
89,PGE Skra Bełchatów,Skra Bełchatów,Bełchatów
96,SKRA BEŁCHATÓW,Skra Bełchatów,Bełchatów


## 13 - Radom

In [151]:
teams_raw_lower[(teams_raw_lower.str.contains('radom')) | (teams_raw_lower.str.contains('cerrad'))
               | (teams_raw_lower.str.contains('czarni'))]

20           cerrad czarni radom
21      cerrad enea czarni radom
30             enea czarni radom
47                   jadar radom
48        jadar sport s.a. radom
61                ks jadar radom
79           nordea czarni radom
107    warka strong czarni radom
Name: team, dtype: object

Existen dos clubes distintos en Radom:
- Czarni Radom
- Jadar Radom

In [153]:
# Indices del Czarni Radom
index_czarni_radom = teams_raw_lower[(teams_raw_lower.str.contains('czarni radom'))].index

In [154]:
teams_raw['Team'][index_czarni_radom] = 'Czarni Radom'
teams_raw['City'][index_czarni_radom] = 'Radom'

In [155]:
teams_raw.iloc[index_czarni_radom]

Unnamed: 0,team_raw,Team,City
20,Cerrad Czarni Radom,Czarni Radom,Radom
21,Cerrad Enea Czarni Radom,Czarni Radom,Radom
30,Enea Czarni Radom,Czarni Radom,Radom
79,NORDEA CZARNI RADOM,Czarni Radom,Radom
107,WARKA STRONG CZARNI RADOM,Czarni Radom,Radom


In [157]:
# indices del Jadar Radom
index_jadar_radom = teams_raw_lower[(teams_raw_lower.str.contains('jadar'))].index

In [158]:
teams_raw['Team'][index_jadar_radom] = 'Jadar Radom'
teams_raw['City'][index_jadar_radom] = 'Radom'

In [159]:
teams_raw.iloc[index_jadar_radom]

Unnamed: 0,team_raw,Team,City
47,Jadar Radom,Jadar Radom,Radom
48,Jadar Sport S.A. Radom,Jadar Radom,Radom
61,KS JADAR RADOM,Jadar Radom,Radom


## 14 - Lubin

In [160]:
teams_raw_lower[(teams_raw_lower.str.contains('lubin')) | (teams_raw_lower.str.contains('cuprum'))]

23            cuprum lubin
24    cuprum stilon gorzów
55       kghm cuprum lubin
Name: team, dtype: object

Investigamos que el Cuprum Lubin y el Cuprum Stilon Gorzów son equipos distintos pero fruto de una fusión. En cualquier caso, los consideraremos distintos.

In [162]:
index_lubin = teams_raw_lower[(teams_raw_lower.str.contains('lubin'))].index

In [163]:
teams_raw['Team'][index_lubin] = 'Cuprum Lubin'
teams_raw['City'][index_lubin] = 'Lubin'

In [164]:
teams_raw.iloc[index_lubin]

Unnamed: 0,team_raw,Team,City
23,Cuprum Lubin,Cuprum Lubin,Lubin
55,KGHM Cuprum Lubin,Cuprum Lubin,Lubin


## 15 - Gorszów Wielkopolski

In [167]:
teams_raw_lower[(teams_raw_lower.str.contains('gorzów')) | (teams_raw_lower.str.contains('stilon')) |
               (teams_raw_lower.str.contains('gtps'))]

24        cuprum stilon gorzów
39    gtps gorzów wielkopolski
99         stilon meryl gorzów
Name: team, dtype: object

Encontramos dos equipos diferentes:
- Stilon Gorzów
- GTPS Gorzów Wielkopolski

In [169]:
# indices Stilon
index_stilon = teams_raw_lower[(teams_raw_lower.str.contains('stilon'))].index

In [170]:
teams_raw['Team'][index_stilon] = 'Stilon Gorzów'
teams_raw['City'][index_stilon] = 'Gorzów Wielkopolski'

In [171]:
teams_raw.iloc[index_stilon]

Unnamed: 0,team_raw,Team,City
24,Cuprum Stilon Gorzów,Stilon Gorzów,Gorzów Wielkopolski
99,STILON MERYL GORZÓW,Stilon Gorzów,Gorzów Wielkopolski


In [173]:
# indice GTPS
index_gtps = teams_raw_lower[(teams_raw_lower.str.contains('gtps'))].index

In [174]:
teams_raw['Team'][index_gtps] = 'GTPS Gorzów Wielkopolski'
teams_raw['City'][index_gtps] = 'Gorzów Wielkopolski'

In [175]:
teams_raw.iloc[index_gtps]

Unnamed: 0,team_raw,Team,City
39,GTPS GORZÓW WIELKOPOLSKI,GTPS Gorzów Wielkopolski,Gorzów Wielkopolski


## 16 - Kielce 

In [178]:
teams_raw_lower[(teams_raw_lower.str.contains('kielce')) | (teams_raw_lower.str.contains('społem')) |
               (teams_raw_lower.str.contains('dafi'))]

25    dafi społem kielce
28       effector kielce
33           fart kielce
Name: team, dtype: object

In [179]:
index_kielce = teams_raw_lower[(teams_raw_lower.str.contains('kielce')) | (teams_raw_lower.str.contains('społem')) |
               (teams_raw_lower.str.contains('dafi'))].index

In [180]:
teams_raw['Team'][index_kielce] = 'Dafi Społem Kielce'
teams_raw['City'][index_kielce] = 'Kielce'

In [181]:
teams_raw.iloc[index_kielce]

Unnamed: 0,team_raw,Team,City
25,Dafi Społem Kielce,Dafi Społem Kielce,Kielce
28,Effector Kielce,Dafi Społem Kielce,Kielce
33,Fart Kielce,Dafi Społem Kielce,Kielce


## 17 - Szczecin

In [184]:
teams_raw_lower[(teams_raw_lower.str.contains('szczecin')) | (teams_raw_lower.str.contains('espadon'))
               | (teams_raw_lower.str.contains('morze')) | (teams_raw_lower.str.contains('stocznia'))]

31      espadon szczecin
63              ks morze
64     ks morze szczecin
72        morze szczecin
100    stocznia szczecin
Name: team, dtype: object

Aunque no está muy claro del todo, todos pueden considerarse el mismo club:
- Stocznia Szczecin

In [185]:
index_szczecin = teams_raw_lower[(teams_raw_lower.str.contains('szczecin')) | (teams_raw_lower.str.contains('espadon'))
               | (teams_raw_lower.str.contains('morze')) | (teams_raw_lower.str.contains('stocznia'))].index

In [186]:
teams_raw['Team'][index_szczecin] = 'Stocznia Szczecin'
teams_raw['City'][index_szczecin] = 'Szczecin'

In [187]:
teams_raw.iloc[index_szczecin]

Unnamed: 0,team_raw,Team,City
31,Espadon Szczecin,Stocznia Szczecin,Szczecin
63,KS MORZE,Stocznia Szczecin,Szczecin
64,KS MORZE SZCZECIN,Stocznia Szczecin,Szczecin
72,MORZE SZCZECIN,Stocznia Szczecin,Szczecin
100,Stocznia Szczecin,Stocznia Szczecin,Szczecin


## 18 - Katowice

In [188]:
teams_raw_lower[(teams_raw_lower.str.contains('katowice')) | (teams_raw_lower.str.contains('gks'))]

37    gks katowice
Name: team, dtype: object

In [189]:
index_katowice = teams_raw_lower[(teams_raw_lower.str.contains('katowice')) | (teams_raw_lower.str.contains('gks'))].index

In [190]:
teams_raw['Team'][index_katowice] = 'GKS Katowice'
teams_raw['City'][index_katowice] = 'Katowice'

In [191]:
teams_raw.iloc[index_katowice]

Unnamed: 0,team_raw,Team,City
37,GKS Katowice,GKS Katowice,Katowice


## 19 - Kędzierzyn-Koźle

In [192]:
teams_raw_lower[(teams_raw_lower.str.contains('koźle')) | (teams_raw_lower.str.contains('zaksa'))]

38          grupa azoty zaksa kędzierzyn-koźle
73          mostostal - azoty kędzierzyn-koźle
74     mostostal - azoty s.a. kędzierzyn-koźle
75      mostostal - azoty ssa kędzierzyn-koźle
110                    zak sa kędzierzyn-koźle
111                     zaksa kędzierzyn-koźle
Name: team, dtype: object

In [193]:
index_zaksa = teams_raw_lower[(teams_raw_lower.str.contains('koźle')) | (teams_raw_lower.str.contains('zaksa'))].index

In [194]:
teams_raw['Team'][index_zaksa] = 'ZAKSA Kędzierzyn-Koźle'
teams_raw['City'][index_zaksa] = 'Kędzierzyn-Koźle'

In [195]:
teams_raw.iloc[index_zaksa]

Unnamed: 0,team_raw,Team,City
38,Grupa Azoty ZAKSA Kędzierzyn-Koźle,ZAKSA Kędzierzyn-Koźle,Kędzierzyn-Koźle
73,MOSTOSTAL - AZOTY KĘDZIERZYN-KOŹLE,ZAKSA Kędzierzyn-Koźle,Kędzierzyn-Koźle
74,MOSTOSTAL - AZOTY S.A. KĘDZIERZYN-KOŹLE,ZAKSA Kędzierzyn-Koźle,Kędzierzyn-Koźle
75,MOSTOSTAL - AZOTY SSA KĘDZIERZYN-KOŹLE,ZAKSA Kędzierzyn-Koźle,Kędzierzyn-Koźle
110,ZAK SA KĘDZIERZYN-KOŹLE,ZAKSA Kędzierzyn-Koźle,Kędzierzyn-Koźle
111,ZAKSA Kędzierzyn-Koźle,ZAKSA Kędzierzyn-Koźle,Kędzierzyn-Koźle


## 20 - Jastrzębiu-Zdroju

In [197]:
teams_raw_lower[(teams_raw_lower.str.contains('jastrzę')) | (teams_raw_lower.str.contains('borynia'))]

43       ivett jastrzębie borynia
49             jastrzębie borynia
50             jastrzębski węgiel
51         jastrzębski węgiel ssa
52         jsw jastrzębski węgiel
60    ks ivett jastrzębie borynia
62     ks jastrzębski węgiel s.a.
Name: team, dtype: object

In [198]:
index_jastrzębski = teams_raw_lower[(teams_raw_lower.str.contains('jastrzę')) | (teams_raw_lower.str.contains('borynia'))].index

In [199]:
teams_raw['Team'][index_jastrzębski] = 'Jastrzębski Węgiel'
teams_raw['City'][index_jastrzębski] = 'Jastrzębiu-Zdroju'

In [200]:
teams_raw.iloc[index_jastrzębski]

Unnamed: 0,team_raw,Team,City
43,IVETT JASTRZĘBIE BORYNIA,Jastrzębski Węgiel,Jastrzębiu-Zdroju
49,JASTRZĘBIE BORYNIA,Jastrzębski Węgiel,Jastrzębiu-Zdroju
50,Jastrzębski Węgiel,Jastrzębski Węgiel,Jastrzębiu-Zdroju
51,JASTRZĘBSKI WĘGIEL SSA,Jastrzębski Węgiel,Jastrzębiu-Zdroju
52,JSW Jastrzębski Węgiel,Jastrzębski Węgiel,Jastrzębiu-Zdroju
60,KS IVETT JASTRZĘBIE BORYNIA,Jastrzębski Węgiel,Jastrzębiu-Zdroju
62,KS Jastrzębski Węgiel S.A.,Jastrzębski Węgiel,Jastrzębiu-Zdroju


## 21 - Sosnowiec

In [203]:
teams_raw_lower[(teams_raw_lower.str.contains('energia')) | (teams_raw_lower.str.contains('sosnowiec'))
               | (teams_raw_lower.str.contains('kazimierz')) | (teams_raw_lower.str.contains('płomień'))]

53                  k.p. polska energia
54          kazimierz płomień sosnowiec
56    kp - polska energia ssa sosnowiec
93                 płomień sa sosnowiec
Name: team, dtype: object

In [204]:
index_sosnowiec = teams_raw_lower[(teams_raw_lower.str.contains('energia')) | (teams_raw_lower.str.contains('sosnowiec'))
               | (teams_raw_lower.str.contains('kazimierz')) | (teams_raw_lower.str.contains('płomień'))].index

In [205]:
teams_raw['Team'][index_sosnowiec] = 'Płomień Sosnowiec'
teams_raw['City'][index_sosnowiec] = 'Sosnowiec'

In [206]:
teams_raw.iloc[index_sosnowiec]

Unnamed: 0,team_raw,Team,City
53,K.P. POLSKA ENERGIA,Płomień Sosnowiec,Sosnowiec
54,KAZIMIERZ PŁOMIEŃ SOSNOWIEC,Płomień Sosnowiec,Sosnowiec
56,KP - POLSKA ENERGIA SSA SOSNOWIEC,Płomień Sosnowiec,Sosnowiec
93,PŁOMIEŃ SA SOSNOWIEC,Płomień Sosnowiec,Sosnowiec


## 22 - Gdańsk

In [208]:
teams_raw_lower[(teams_raw_lower.str.contains('gdańsk')) | (teams_raw_lower.str.contains('lotos')) 
               | (teams_raw_lower.str.contains('trefl'))]

67     lotos trefl gdańsk
103          trefl gdańsk
Name: team, dtype: object

In [209]:
index_gdansk = teams_raw_lower[(teams_raw_lower.str.contains('gdańsk')) | (teams_raw_lower.str.contains('lotos')) 
               | (teams_raw_lower.str.contains('trefl'))].index

In [210]:
teams_raw['Team'][index_gdansk] = 'Trefl Gdańsk'
teams_raw['City'][index_gdansk] = 'Gdańsk'

In [211]:
teams_raw.iloc[index_gdansk]

Unnamed: 0,team_raw,Team,City
67,LOTOS Trefl Gdańsk,Trefl Gdańsk,Gdańsk
103,Trefl Gdańsk,Trefl Gdańsk,Gdańsk


## 23 - Będzin

In [212]:
teams_raw_lower[(teams_raw_lower.str.contains('będzin')) | (teams_raw_lower.str.contains('mks'))]

69        mks banimex będzin
70                mks będzin
80    nowak-mosty mks będzin
Name: team, dtype: object

In [213]:
index_bedzin = teams_raw_lower[(teams_raw_lower.str.contains('będzin')) | (teams_raw_lower.str.contains('mks'))].index

In [214]:
teams_raw['Team'][index_bedzin] = 'MKS Będzin'
teams_raw['City'][index_bedzin] = 'Będzin'

In [215]:
teams_raw.iloc[index_bedzin]

Unnamed: 0,team_raw,Team,City
69,MKS BANIMEX BĘDZIN,MKS Będzin,Będzin
70,MKS Będzin,MKS Będzin,Będzin
80,Nowak-Mosty MKS Będzin,MKS Będzin,Będzin


## 24 - Wieluń

In [217]:
teams_raw_lower[(teams_raw_lower.str.contains('wieluń'))]

85    pamapol siatkarz wieluń
86     pamapol wielton wieluń
Name: team, dtype: object

In [218]:
index_wielun = teams_raw_lower[(teams_raw_lower.str.contains('wieluń'))].index

In [219]:
teams_raw['Team'][index_wielun] = 'Siatkarz Wieluń'
teams_raw['City'][index_wielun] = 'Wieluń'

In [220]:
teams_raw.iloc[index_wielun]

Unnamed: 0,team_raw,Team,City
85,Pamapol Siatkarz Wieluń,Siatkarz Wieluń,Wieluń
86,Pamapol Wielton Wieluń,Siatkarz Wieluń,Wieluń


## 25 - Radlin

In [222]:
teams_raw_lower[(teams_raw_lower.str.contains('radlin')) | (teams_raw_lower.str.contains('górnik'))]

95    sk górnik radlin
Name: team, dtype: object

In [223]:
index_radlin = teams_raw_lower[(teams_raw_lower.str.contains('radlin')) | (teams_raw_lower.str.contains('górnik'))].index

In [230]:
teams_raw['Team'][index_radlin] = 'Górnik Radlin'
teams_raw['City'][index_radlin] = 'Radlin'

In [231]:
teams_raw.iloc[index_radlin]

Unnamed: 0,team_raw,Team,City
95,SK GÓRNIK RADLIN,Górnik Radlin,Radlin


## 26 - Wołomin

In [226]:
teams_raw_lower[(teams_raw_lower.str.contains('stolarka')) | (teams_raw_lower.str.contains('wołomin'))]

101       stolarka wołomin
104    ts stolarka wołomin
Name: team, dtype: object

In [227]:
index_wolomin = teams_raw_lower[(teams_raw_lower.str.contains('stolarka')) | (teams_raw_lower.str.contains('wołomin'))].index

In [232]:
teams_raw['Team'][index_wolomin] = 'Stolarka Wołomin'
teams_raw['City'][index_wolomin] = 'Wołomin'

In [233]:
teams_raw.iloc[index_wolomin]

Unnamed: 0,team_raw,Team,City
101,STOLARKA WOŁOMIN,Stolarka Wołomin,Wołomin
104,TS STOLARKA WOŁOMIN,Stolarka Wołomin,Wołomin


## 27 - Suwałki

In [234]:
teams_raw_lower[(teams_raw_lower.str.contains('suwałki')) | (teams_raw_lower.str.contains('lepsk'))]

113    ślepsk malow suwałki
Name: team, dtype: object

In [237]:
index_suwalki = teams_raw_lower[(teams_raw_lower.str.contains('suwałki')) | (teams_raw_lower.str.contains('lepsk'))].index

In [238]:
teams_raw['Team'][index_suwalki] = 'Ślepsk Malow Suwałki'
teams_raw['City'][index_suwalki] = 'Suwałki'

In [239]:
teams_raw.iloc[index_suwalki]

Unnamed: 0,team_raw,Team,City
113,Ślepsk Malow Suwałki,Ślepsk Malow Suwałki,Suwałki


In [242]:
(teams_raw['City'] == 'Na').sum()

0

In [266]:
teams = teams_raw[['Team', 'City']].copy()

In [270]:
teams = teams.drop_duplicates(ignore_index= True)

In [273]:
teams.to_csv('C:/Users/soler/Desktop/My_works/volleyball-database/data/processed/teams.csv', index = False)