<h2 class="typing">Data Cleaning in Pandas</h2>
<style>
.typing {
  width: 12ch;
  font-size: 48px;
  font-family: monospace;
  white-space: nowrap;
  overflow: hidden;
  border-right: 3px solid;
  animation: typing 3s steps(12), blink 0.5s step-end infinite alternate;
  margin: auto;
  text-align: center;
}
@keyframes typing {
  from { width: 0 }
  to { width: 12ch }
}
@keyframes blink {
  50% { border-color: transparent }
}
</style>


In [141]:
import pandas as pd

<p class="cs-info">
  Načtení původního datasetu <code>customers.csv</code> do proměnné <code>df_original</code> pro další zpracování.
</p>


In [142]:
df_original=pd.read_csv('data/customers.csv')
df_original

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes,False
2,1003,Walter,White,7066950392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,,1209 South Street,No,,False
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True


<h2 class="warning">⚠️ VAROVÁNÍ: Každé mazání, změna, přejmenování, úprava nebo přesun dat vyžaduje vytvořit kopii! ⚠️</h2>

<style>
.warning {
  font-size: 20px;
  text-align: center;
  color: darkred;
  background-color: #fff8e1; /* světle žlutá */
  padding: 10px;
  border-left: 5px solid orange;
  box-shadow: 0 0 5px rgba(255, 165, 0, 0.5);
  animation: softPulse 2s infinite alternate;
}

@keyframes softPulse {
  0% {
    background-color: #fff8e1;
  }
  100% {
    background-color: #ffe0b2;
  }
}
</style>


<h2 class="loud">Vytvoří kopii DataFrame</h2>
<style>
.loud {
  font-size: 20px;
  text-align: center;
  color: red;
  text-shadow: 0 0 7px orange;
  animation: loudPulse 0.6s infinite alternate;
}
@keyframes loudPulse {
  0% { transform: scale(1); }
  100% { transform: scale(1.1); }
}
</style>

<p class="cs-info">
  Vytváříme pracovní kopii původního datasetu pomocí <code>df = df_original.copy()</code>, 
  abychom mohli bezpečně provádět úpravy bez změny původních dat.
</p>


In [143]:
df = df_original.copy() 

<h2 class="shake">drop_duplicates</h2>

<style>
.shake {
  font-size: 25px;
  text-align: left;
  color: #20B2AA; /* barva mořské vlny */
  animation: shakeAnim 0.5s infinite;
}

@keyframes shakeAnim {
  0%   { transform: translateX(0); }
  25%  { transform: translateX(-5px); }
  75%  { transform: translateX(5px); }
  100% { transform: translateX(0); }
}
</style>


<p class="cs-info">
  Pomocí <code>df.drop_duplicates()</code> odstraňujeme všechny duplicitní řádky z datasetu <code>df</code>, 
  aby zůstaly pouze jedinečné záznamy.
</p>


In [144]:
df = df.drop_duplicates()
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes,False
2,1003,Walter,White,7066950392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,,1209 South Street,No,,False
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True


<h2 class="fadecycle">Odstraní nepotřebné sloupce</h2>

<style>
.fadecycle {
  font-size: 25px;
  animation: fadeGold 4s infinite;
  text-align: left;
}

@keyframes fadeGold {
  0%   { color: #FFD700; }   /* zlatá */
  25%  { color: #FFA500; }   /* oranžovo-zlatá */
  50%  { color: #DAA520; }   /* goldenrod */
  75%  { color: #F0E68C; }   /* khaki (bledě zlatá) */
  100% { color: #FFD700; }   /* zpět na zlatou */
}
</style>


<p class="cs-info">
  Odstranění sloupce <code>Not_Useful_Column</code> z DataFrame, protože neobsahuje užitečné nebo relevantní informace pro analýzu.
</p>


In [145]:
df.drop(columns='Not_Useful_Column') 

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes
2,1003,Walter,White,7066950392,298 Drugs Driveway,N,
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes
6,1007,Jeff,Winger,,1209 South Street,No,
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No


<h2 class="quake">Odstranění zvláštních znaků z textového sloupce(Last_Name)</h2>

<style>
.quake {
  font-size: 25px;
  text-align: left;
  color: deeppink; /* růžová barva textu */
  border-left: 4px solid limegreen; /* zelený levý okraj */
  padding-left: 10px;
  animation: quakeMove 0.3s infinite;
}

@keyframes quakeMove {
  0%, 100% { transform: translate(0, 0); }
  25% { transform: translate(2px, -2px); }
  75% { transform: translate(-2px, 2px); }
}
</style>


<p class="cs-info">
  Odstranění mezer (a případných neviditelných znaků) na začátku a konci textu ve sloupci <code>Last_Name</code>.
</p>


In [146]:
df["Last_Name"].str.strip() 

0        Baggins
1          Nadir
2          White
3        Schrute
4           Snow
5        Swanson
6         Winger
7         Holmes
8            NaN
9         Parker
10        Gamgee
11     ...Potter
12        Draper
13         Knope
14    Flenderson
15       Weasley
16         Scott
17          Kent
18        Braton
19     Skywalker
Name: Last_Name, dtype: object

<p class="cs-info">
  Pomocí <code>.str.strip("...")</code> odstraňujeme specifikované znaky pouze na začátku a konci textového řetězce ve sloupci <code>Last_Name</code>.
  Každý znak je třeba odstraňovat zvlášť, pokud má mít specifický význam. 
  V závěrečném příkazu jsou odstraněny všechny uvedené znaky (např. <code>.,!@#$%</code> atd.) z levého i pravého okraje, 
  ale ne z prostředku textu.
</p>


In [147]:
# Odstraní tečky (nebo jiný znak) zleva i zprava – ne ze středu
df["Last_Name"] = df["Last_Name"].str.strip("...")

# Odstranění konkrétních znaků z krajů řetězce
df["Last_Name"] = df["Last_Name"].str.strip("/")
df["Last_Name"] = df["Last_Name"].str.strip("$")

# Odstranění všech nežádoucích znaků na začátku a konci
df["Last_Name"] = df["Last_Name"].str.strip("123._?!@#$%^&*()[]{};:,<>/\\|`~")


<h2 class="unicorn">Odstraní všechny znaky kromě písmen a číslic z řetězce ve sloupci 'Phone_Number'</h2>

<style>
.unicorn {
  font-size: 25px;
  background: linear-gradient(90deg, #ffb6c1, #dda0dd, #add8e6, #e0ffff, #ffb6c1);
  background-size: 500% 500%;
  -webkit-background-clip: text;
  -webkit-text-fill-color: transparent;
  animation: unicornFlow 8s linear infinite;
  text-align: left;
}

@keyframes unicornFlow {
  0% { background-position: 0% 50%; }
  100% { background-position: 100% 50%; }
}
</style>


<p class="cs-info">
  Odstraňuje všechny znaky, které nejsou písmena ani číslice (např. mezery, pomlčky, závorky, +, # apod.) ze sloupce <code>Phone_Number</code>.
</p>


In [148]:
df["Phone_Number"].str.replace('[^a-zA-Z0-9]', '') 

0     123-545-5421
1     123/643/9775
2       7066950392
3     123-543-2345
4     876|678|3469
5     304-762-2467
6              NaN
7     876|678|3469
8              N/a
9     123-545-5421
10             NaN
11      7066950392
12    123-543-2345
13    876|678|3469
14    304-762-2467
15    123-545-5421
16    123/643/9775
17      7066950392
18             N/a
19    876|678|3469
Name: Phone_Number, dtype: object

<p class="cs-info">
  Odstraňuje všechny znaky kromě číslic ze sloupce <code>Phone_Number</code> – tím se vyčistí telefonní čísla od mezer, závorek, pomlček a dalších nepovolených znaků.
</p>


In [149]:
# Odstraní všechny znaky kromě číslic (0–9) ze sloupce Phone_Number
df["Phone_Number"] = df["Phone_Number"].str.replace(r'[^0-9]', '', regex=True)
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,1235455421.0,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,1236439775.0,93 West Main Street,No,Yes,False
2,1003,Walter,White,7066950392.0,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,1235432345.0,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,8766783469.0,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,3047622467.0,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,,1209 South Street,No,,False
7,1008,Sherlock,Holmes,8766783469.0,98 Clue Drive,N,No,False
8,1009,Gandalf,,,123 Middle Earth,Yes,,False
9,1010,Peter,Parker,1235455421.0,"25th Main Street, New York",Yes,No,True


<p class="cs-info">
  Formátuje hodnoty ve sloupci <code>Phone_Number</code> do podoby <strong>XXX-XXX-XXXX</strong>, 
  ale pouze pokud jde o textový řetězec s délkou alespoň 10 znaků. 
  Neplatné nebo chybějící hodnoty zůstávají beze změny.
</p>


In [150]:
df["Phone_Number"].apply(lambda x: x[0:3]+ '-' + x[3:6]+ '-'+ x[6:10]+ '-')   #TypeError: 'float' object is not subscriptable (Ošetření chyb (float, NaN, apod.))

TypeError: 'float' object is not subscriptable

<p class="cs-info">
  Výraz <code>str(df["Phone_Number"])</code> vrací textovou reprezentaci (popis) sloupce <code>Phone_Number</code> jako objektu typu <code>Series</code> – zobrazí indexy, hodnoty a datový typ, ale neumožňuje práci s jednotlivými hodnotami.
</p>


In [151]:
str(df["Phone_Number"]) # Vrací textový popis Series objektu 

'0     1235455421\n1     1236439775\n2     7066950392\n3     1235432345\n4     8766783469\n5     3047622467\n6            NaN\n7     8766783469\n8               \n9     1235455421\n10           NaN\n11    7066950392\n12    1235432345\n13    8766783469\n14    3047622467\n15    1235455421\n16    1236439775\n17    7066950392\n18              \n19    8766783469\nName: Phone_Number, dtype: object'

<p class="cs-info">
  Prochází všechny hodnoty ve sloupci <code>Phone_Number</code> a vypisuje je jednu po druhé pod sebe. 
  Hodí se pro rychlou kontrolu obsahu sloupce v přehledném svislém výpisu.
</p>


In [152]:
for val in df["Phone_Number"]:   # chceš vidět hodnoty pod sebou:
    print(val)


1235455421
1236439775
7066950392
1235432345
8766783469
3047622467
nan
8766783469

1235455421
nan
7066950392
1235432345
8766783469
3047622467
1235455421
1236439775
7066950392

8766783469


<p class="cs-info">
  Převede všechny hodnoty ve sloupci <code>Phone_Number</code> na řetězce (typ <code>str</code>) pomocí funkce <code>apply()</code>. 
  Vrací nový <code>Series</code> objekt, kde jsou všechny hodnoty textové, bez ohledu na původní datový typ (např. číslo, NaN apod.).
</p>


In [153]:
df["Phone_Number"].apply(lambda x: str(x)) # vrací nový Series objekt, kde všechny hodnoty jsou typu str

0     1235455421
1     1236439775
2     7066950392
3     1235432345
4     8766783469
5     3047622467
6            nan
7     8766783469
8               
9     1235455421
10           nan
11    7066950392
12    1235432345
13    8766783469
14    3047622467
15    1235455421
16    1236439775
17    7066950392
18              
19    8766783469
Name: Phone_Number, dtype: object

<p class="cs-info">
  Převede všechny hodnoty ve sloupci <code>Phone_Number</code> na řetězce (stringy) pomocí funkce <code>apply()</code>. 
  To zajistí jednotný datový typ a umožní následné textové operace (např. <code>.str.replace()</code>, <code>.str.strip()</code> apod.).
</p>


In [154]:
df["Phone_Number"]=df["Phone_Number"].apply(lambda x: str(x))   #Převede všechny hodnoty ve sloupci Phone_Number na řetězce (stringy)

<p class="cs-info">
  Formátuje hodnoty ve sloupci <code>Phone_Number</code> do podoby <strong>XXX-XXX-XXXX</strong> spojením částí řetězce pomocí pomlček. 
  Díky tomu je telefonní číslo lépe čitelné a sjednocené pro další použití.
</p>
<p class="cs-info">
  Elegantnější varianta využívá formátovací řetězec typu <code>f"{...}"</code>, což zvyšuje přehlednost a čitelnost kódu.
</p>


In [155]:
df["Phone_Number"]=df["Phone_Number"].apply(lambda x: x[0:3]+ '-' + x[3:6]+ '-'+ x[6:10])   #Formátuje telefonní číslo do tvaru XXX-XXX-XXXX spojením částí řetězce pomocí pomlček

#df["Phone_Number"].apply(lambda x: f"{x[0:3]}-{x[3:6]}-{x[6:10]}")    ještě elegantněji s formátovacím řetězcem
df


Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123-643-9775,93 West Main Street,No,Yes,False
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,nan--,1209 South Street,No,,False
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,--,123 Middle Earth,Yes,,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True


<p class="cs-info">
  Pomocí regulárního výrazu <code>r'nan--|--|nan'</code> jsou ze sloupce 
  <code>Phone_Number</code> odstraněny nežádoucí části řetězce jako 
  <code>"nan--"</code>, <code>"--"</code> nebo samostatné <code>"nan"</code>.<br>
  Všechny výskyty těchto kombinací jsou nahrazeny prázdným řetězcem 
  <code>''</code> v jediném kroku díky parametru <code>regex=True</code>.
</p>



In [156]:
df["Phone_Number"]=df["Phone_Number"]. str.replace('nan--', '')
df["Phone_Number"]=df["Phone_Number"]. str.replace('--', '')
df["Phone_Number"]=df["Phone_Number"]. str.replace('nan', '')

# Můžeš to napsat jedním řádkem pomocí regulárního výrazu (regex=True) 

#  df["Phone_Number"] = df["Phone_Number"].str.replace(r'nan--|--|nan', '', regex=True)         #  nan--|--|nan = vyhledá, a všechno to nahradí prázdným řetězcem ('')
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123-643-9775,93 West Main Street,No,Yes,False
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,,1209 South Street,No,,False
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,,123 Middle Earth,Yes,,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True


<h2 style="font-size: 25px; text-align: left; font-weight: bold;">
  Čištění sloupce
  <span style="color:#F06595">A</span>
  <span style="color:#FF922B">d</span>
  <span style="color:#FCC419">d</span>
  <span style="color:#40C057">r</span>
  <span style="color:#15AABF">e</span>
  <span style="color:#5C7CFA">s</span>
  <span style="color:#AE3EC9">s</span>
</h2>



In [157]:
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123-643-9775,93 West Main Street,No,Yes,False
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,,1209 South Street,No,,False
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,,123 Middle Earth,Yes,,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True


<p class="cs-info">
  Rozdělí každý řetězec ve sloupci <code>Address</code> na dvě části podle první čárky. 
  Výsledkem je seznam obsahující dvě položky: část před čárkou a část za ní. 
  Parametr <code>n=1</code> zajistí, že dělení proběhne pouze při první čárce zleva.
</p>


In [158]:
df["Address"].str.split(',',n=1)  # Rozdělí každý řetězec ve sloupci Address na dvě části podle první čárky.

0                     [123 Shire Lane,  Shire]
1                        [93 West Main Street]
2                         [298 Drugs Driveway]
3     [980 Paper Avenue,  Pennsylvania, 18503]
4                           [123 Dragons Road]
5                           [768 City Parkway]
6                          [1209 South Street]
7                              [98 Clue Drive]
8                           [123 Middle Earth]
9                [25th Main Street,  New York]
10                    [612 Shire Lane,  Shire]
11                      [2394 Hogwarts Avenue]
12                          [2039 Main Street]
13                          [343 City Parkway]
14                             [214 HR Avenue]
15                      [2395 Hogwarts Avenue]
16           [121 Paper Avenue,  Pennsylvania]
17                           [3498 Super Lane]
18                                       [N/a]
19              [910 Tatooine Road,  Tatooine]
Name: Address, dtype: object

<p class="cs-info">
  Rozdělí hodnoty ve sloupci <code>Address</code> podle první čárky.  
  Parametr <code>n=1</code> zajistí, že dělení proběhne pouze při první čárce zleva,  
  a <code>expand=True</code> vrátí výsledek jako dva samostatné sloupce (DataFrame), nikoli jako seznam uvnitř jedné buňky.
</p>


In [159]:
df["Address"].str.split(',',n=1, expand=True)  # Rozdělí hodnoty ve sloupci Address podle první čárky, expand=True říká: vrať výsledek jako dva sloupce (DataFrame)

Unnamed: 0,0,1
0,123 Shire Lane,Shire
1,93 West Main Street,
2,298 Drugs Driveway,
3,980 Paper Avenue,"Pennsylvania, 18503"
4,123 Dragons Road,
5,768 City Parkway,
6,1209 South Street,
7,98 Clue Drive,
8,123 Middle Earth,
9,25th Main Street,New York


<p class="cs-info">
  Rozdělí hodnoty ve sloupci <code>Address</code> na maximálně tři části podle dvou čárek.  
  Parametr <code>n=2</code> určuje, že dělení se provede nejvýše dvakrát zleva.  
  Díky parametru <code>expand=True</code> se výsledek vrátí jako samostatné tři sloupce (DataFrame), nikoli jako seznamy.
</p>


In [160]:
df["Address"].str.split(',',n=2, expand=True)   # Parametr n=2 = rozdělí maximálně dvakrát → dostaneš 3 části

Unnamed: 0,0,1,2
0,123 Shire Lane,Shire,
1,93 West Main Street,,
2,298 Drugs Driveway,,
3,980 Paper Avenue,Pennsylvania,18503.0
4,123 Dragons Road,,
5,768 City Parkway,,
6,1209 South Street,,
7,98 Clue Drive,,
8,123 Middle Earth,,
9,25th Main Street,New York,


<p class="cs-info">
  Sloupec <code>Address</code> je rozdělen na tři části podle čárek (<code>,</code>) pomocí <code>str.split(',', n=2, expand=True)</code>.  
  Výsledkem jsou nové sloupce: <code>Street Address</code>, <code>State</code> a <code>Zip_code</code>.
</p>
<p class="cs-info">
  Následně jsou ze všech tří sloupců odstraněny případné mezery na začátku nebo konci řetězce pomocí metody <code>.str.strip()</code>, aby byla data čistá a konzistentní.
</p>


In [161]:
df[['Street Address','State', 'Zip_code']]=df["Address"].str.split(',',n=2, expand=True) # Rozděluje sloupec Address podle čárek na tři části a ukládá je do nových sloupců Street Address, State a Zip_code.

# Hodnoty mohou mít mezery. # Odstraňuje případné mezery na začátku/konci hodnot ve výsledných sloupcích
df['Street Address']=df['Street Address'].str.strip()
df['State']=df['State'].str.strip()
df['Zip_code']=df['Zip_code'].str.strip()
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column,Street Address,State,Zip_code
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True,123 Shire Lane,Shire,
1,1002,Abed,Nadir,123-643-9775,93 West Main Street,No,Yes,False,93 West Main Street,,
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,,True,298 Drugs Driveway,,
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True,980 Paper Avenue,Pennsylvania,18503.0
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,No,True,123 Dragons Road,,
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True,768 City Parkway,,
6,1007,Jeff,Winger,,1209 South Street,No,,False,1209 South Street,,
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,No,False,98 Clue Drive,,
8,1009,Gandalf,,,123 Middle Earth,Yes,,False,123 Middle Earth,,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True,25th Main Street,New York,


<h2 class="spectrum">Normalize Paying Customer Field</h2>
<p class="cs-info">
  Čistí sloupec <code>Paying Customer</code> a převádí hodnoty na standardní formát:
  <strong>Y</strong> pro platícího zákazníka, <strong>N</strong> pro neplatícího a prázdná hodnota pro chybějící/nezjištěné údaje.
</p>

<style>
.spectrum {
  font-size: 25px;
  text-align: left;
  color: white;
  animation: colorCycle 5s infinite linear;
}
@keyframes colorCycle {
  0% { color: red; }
  25% { color: yellow; }
  50% { color: lime; }
  75% { color: cyan; }
  100% { color: red; }
}
.cs-info {
  font-size: 16px;
  margin-left: 8px;
  max-width: 600px;
  line-height: 1.4;
}
</style>

In [162]:
df["Paying Customer"]

0     Yes
1      No
2       N
3     Yes
4       Y
5     Yes
6      No
7       N
8     Yes
9     Yes
10    Yes
11      Y
12    Yes
13    Yes
14      N
15     No
16    Yes
17    Yes
18    NaN
19    Yes
Name: Paying Customer, dtype: object

<p class="cs-info">
  Sloupec <code>Paying Customer</code> je vyčištěn a převeden do jednotného formátu:
  <strong>Y</strong> značí platícího zákazníka, 
  <strong>N</strong> neplatícího a 
  prázdná hodnota označuje neznámý nebo chybějící údaj.
</p>

In [163]:
df["Paying Customer"]=(
    df["Paying Customer"].str.replace(r'YESes|YES|Yes', 'Y', regex=True)
    .str.replace(r'No', 'N', regex=True)
    .str.replace(r'Nan|NaN', '', regex=True))
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column,Street Address,State,Zip_code
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Y,No,True,123 Shire Lane,Shire,
1,1002,Abed,Nadir,123-643-9775,93 West Main Street,N,Yes,False,93 West Main Street,,
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,,True,298 Drugs Driveway,,
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Y,Y,True,980 Paper Avenue,Pennsylvania,18503.0
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,No,True,123 Dragons Road,,
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Y,Yes,True,768 City Parkway,,
6,1007,Jeff,Winger,,1209 South Street,N,,False,1209 South Street,,
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,No,False,98 Clue Drive,,
8,1009,Gandalf,,,123 Middle Earth,Y,,False,123 Middle Earth,,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Y,No,True,25th Main Street,New York,


<h2 class="galaxy-glitch">Do_Not_Contact</h2>
<style>
.galaxy-glitch {
  position: relative;
  font-size: 25px;
  text-align: left;
  color: #fff;
}
.galaxy-glitch::before,
.galaxy-glitch::after {
  content: 'Do_Not_Contact';
  position: absolute;
  left: 0;
  color: #fff;
}
.galaxy-glitch::before {
  color: #0ff;
  animation: glitchA 1s infinite;
}
.galaxy-glitch::after {
  color: #f0f;
  animation: glitchB 1s infinite;
}
@keyframes glitchA {
  0% { transform: translate(-2px, 0); }
  100% { transform: translate(2px, 1px); }
}
@keyframes glitchB {
  0% { transform: translate(2px, -1px); }
  100% { transform: translate(-2px, 1px); }
}
</style>
<p class="cs-info">
  Sloupec <code>Do_Not_Contact</code> je převeden do jednotného formátu: 
  <strong>Y</strong> pro „Ano“ (nechce být kontaktován) a 
  <strong>N</strong> pro „Ne“ (kontaktování povoleno).
</p>


In [164]:
df["Do_Not_Contact"]=(
    df["Do_Not_Contact"].str.replace(r'Yes', 'Y', regex=True)
    .str.replace(r'No', 'N', regex=True))
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column,Street Address,State,Zip_code
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Y,N,True,123 Shire Lane,Shire,
1,1002,Abed,Nadir,123-643-9775,93 West Main Street,N,Y,False,93 West Main Street,,
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,,True,298 Drugs Driveway,,
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Y,Y,True,980 Paper Avenue,Pennsylvania,18503.0
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,N,True,123 Dragons Road,,
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Y,Y,True,768 City Parkway,,
6,1007,Jeff,Winger,,1209 South Street,N,,False,1209 South Street,,
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,N,False,98 Clue Drive,,
8,1009,Gandalf,,,123 Middle Earth,Y,,False,123 Middle Earth,,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Y,N,True,25th Main Street,New York,


<p class="cs-info">
  Najde všechny hodnoty <code>NaN</code> (chybějící data) v celém DataFrame <code>df</code> a nahradí je prázdným řetězcem <code>''</code>.  
  Díky tomu je možné dál pracovat s daty jako s textem bez rizika chyb způsobených <code>NaN</code> hodnotami.
</p>


In [165]:
df=df.fillna('')  # Najde všechny NaN hodnoty (chybějící data) v celém DataFrame df , A nahradí je prázdným řetězcem ''
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column,Street Address,State,Zip_code
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Y,N,True,123 Shire Lane,Shire,
1,1002,Abed,Nadir,123-643-9775,93 West Main Street,N,Y,False,93 West Main Street,,
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,,True,298 Drugs Driveway,,
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Y,Y,True,980 Paper Avenue,Pennsylvania,18503.0
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,N,True,123 Dragons Road,,
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Y,Y,True,768 City Parkway,,
6,1007,Jeff,Winger,,1209 South Street,N,,False,1209 South Street,,
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,N,False,98 Clue Drive,,
8,1009,Gandalf,,,123 Middle Earth,Y,,False,123 Middle Earth,,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Y,N,True,25th Main Street,New York,


<p class="cs-info">
  Prochází každý řádek pomocí <code>df.index</code> a kontroluje, zda hodnota ve sloupci <code>Do_Not_Contact</code> je <code>'Y'</code>.  
  Pokud ano, tento řádek se smaže příkazem <code>df.drop(x, inplace=True)</code>.
</p>


In [169]:
for x in df.index:
   if df.loc[x,"Do_Not_Contact"]=='Y':
     df.drop(x,inplace=True)
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column,Street Address,State,Zip_code
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Y,N,True,123 Shire Lane,Shire,
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,,True,298 Drugs Driveway,,
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,N,True,123 Dragons Road,,
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,N,False,98 Clue Drive,,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Y,N,True,25th Main Street,New York,
11,1012,Harry,Potter,706-695-0392,2394 Hogwarts Avenue,Y,,True,2394 Hogwarts Avenue,,
12,1013,Don,Draper,123-543-2345,2039 Main Street,Y,,False,2039 Main Street,,
13,1014,Leslie,Knope,876-678-3469,343 City Parkway,Y,N,False,343 City Parkway,,
14,1015,Toby,Flenderson,304-762-2467,214 HR Avenue,N,,False,214 HR Avenue,,
15,1016,Ron,Weasley,123-545-5421,2395 Hogwarts Avenue,N,N,False,2395 Hogwarts Avenue,,


<p class="cs-info">
  Nahradí všechny prázdné hodnoty <code>''</code> ve sloupci <code>Do_Not_Contact</code> za <code>'N'</code>.  
  Používá se například pro doplnění chybějících údajů výchozí hodnotou (např. <code>'N'</code> jako "ne").
</p>


In [None]:
df['Do_Not_Contact'] = df['Do_Not_Contact'].replace('', 'N')  

<p class="cs-info">
  Prochází všechny řádky pomocí <code>df.index</code> a kontroluje, zda je hodnota ve sloupci <code>Phone_Number</code> prázdný řetězec <code>''</code>.  
  Pokud ano, daný řádek se smaže pomocí <code>df.drop(x, inplace=True)</code>.
</p>



In [173]:
for x in df.index:
   if df.loc[x,"Phone_Number"]=='':
     df.drop(x,inplace=True)
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column,Street Address,State,Zip_code
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Y,N,True,123 Shire Lane,Shire,
2,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,N,True,298 Drugs Driveway,,
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,N,True,123 Dragons Road,,
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,N,False,98 Clue Drive,,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Y,N,True,25th Main Street,New York,
11,1012,Harry,Potter,706-695-0392,2394 Hogwarts Avenue,Y,N,True,2394 Hogwarts Avenue,,
12,1013,Don,Draper,123-543-2345,2039 Main Street,Y,N,False,2039 Main Street,,
13,1014,Leslie,Knope,876-678-3469,343 City Parkway,Y,N,False,343 City Parkway,,
14,1015,Toby,Flenderson,304-762-2467,214 HR Avenue,N,N,False,214 HR Avenue,,
15,1016,Ron,Weasley,123-545-5421,2395 Hogwarts Avenue,N,N,False,2395 Hogwarts Avenue,,


<p class="cs-info">
  Resetuje index v DataFrame <code>df</code> – přepočítá ho od nuly a starý index zahodí díky parametru <code>drop=True</code>.  
  To se hodí například po filtrování nebo mazání řádků, aby byl index opět souvislý (0, 1, 2, …).
</p>

In [174]:
df=df.reset_index(drop=True)
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column,Street Address,State,Zip_code
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Y,N,True,123 Shire Lane,Shire,
1,1003,Walter,White,706-695-0392,298 Drugs Driveway,N,N,True,298 Drugs Driveway,,
2,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,N,True,123 Dragons Road,,
3,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,N,False,98 Clue Drive,,
4,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Y,N,True,25th Main Street,New York,
5,1012,Harry,Potter,706-695-0392,2394 Hogwarts Avenue,Y,N,True,2394 Hogwarts Avenue,,
6,1013,Don,Draper,123-543-2345,2039 Main Street,Y,N,False,2039 Main Street,,
7,1014,Leslie,Knope,876-678-3469,343 City Parkway,Y,N,False,343 City Parkway,,
8,1015,Toby,Flenderson,304-762-2467,214 HR Avenue,N,N,False,214 HR Avenue,,
9,1016,Ron,Weasley,123-545-5421,2395 Hogwarts Avenue,N,N,False,2395 Hogwarts Avenue,,


<p class="cs-info">
  Odstraní všechny řádky, kde je ve sloupci <code>Phone_Number</code> hodnota <code>NaN</code> (chybějící telefonní číslo).  
  Parametr <code>inplace=True</code> zajistí, že se změna provede přímo v původním DataFrame <code>df</code>.
</p>


In [None]:
df.dropna(subset=['Phone_Number'], inplace=True)

<h2 class="combined">
  <span class="letter" style="color: #ff0000;">D</span>
  <span class="letter" style="color: #ff4000;">ě</span>
  <span class="letter" style="color: #ff8000;">k</span>
  <span class="letter" style="color: #ffaa00;">u</span>
  <span class="letter" style="color: #aaff00;">j</span>
  <span class="letter" style="color: #55ff00;">i</span>
  <span class="letter" style="color: #00ff80;"> </span>
  <span class="letter" style="color: #00ffbf;">v</span>
  <span class="letter" style="color: #00bfff;">á</span>
  <span class="letter" style="color: #0080ff;">m</span>
  <span class="letter" style="color: #0040ff;"> </span>
  <span class="letter" style="color: #4000ff;">z</span>
  <span class="letter" style="color: #8000ff;">a</span>
  <span class="letter" style="color: #bf00ff;"> </span>
  <span class="letter" style="color: #ff00ff;">p</span>
  <span class="letter" style="color: #ff0080;">o</span>
  <span class="letter" style="color: #ff0055;">z</span>
  <span class="letter" style="color: #ff0033;">o</span>
  <span class="letter" style="color: #ff0011;">r</span>
  <span class="letter" style="color: #cc0000;">n</span>
  <span class="letter" style="color: #990000;">o</span>
  <span class="letter" style="color: #660000;">s</span>
  <span class="letter" style="color: #330000;">t</span>
  <span class="letter" style="color: #000000;">.</span>
</h2>

<style>
.combined {
  text-align: center;
  font-size: 48px;
  font-weight: bold;
  margin-top: 50px;
  animation: starFall 4s infinite;
}

.letter {
  display: inline-block;
  animation: spin 2s linear infinite;
}

@keyframes spin {
  0%   { transform: rotate(0deg); }
  25%  { transform: rotate(5deg); }
  50%  { transform: rotate(0deg); }
  75%  { transform: rotate(-5deg); }
  100% { transform: rotate(0deg); }
}

@keyframes starFall {
  0%   { transform: translateY(-50px); opacity: 0; }
  50%  { opacity: 1; }
  100% { transform: translateY(0); opacity: 0; }
}
</style>



<script>
  document.addEventListener("DOMContentLoaded", function () {
    const table = document.querySelector("table.dataframe");
    const columnIndex = [...table.querySelectorAll("thead th")].findIndex(
      th => th.textContent.trim() === "Do_Not_Contact"
    );

    if (columnIndex !== -1) {
      const rows = table.querySelectorAll("tbody tr");
      rows.forEach(row => {
        const cell = row.cells[columnIndex];
        if (cell && cell.textContent.trim() === "") {
          cell.textContent = "N";
        }
      });
    }
  });
</script>
