# Tarea: Limpieza de datos

## Alumno: José de Jesús Hernández Higuera

### Matrícula: 224470489

Para comenzar, vamos a darnos una idea de cómo se descargó nuestra base de datos a partir del scraping hecho con scrapy. Dichos datos se encuentran concentrados en un archivo nombrado "nobel_winners.json".

In [38]:
import pandas as pd

df_nobel = pd.read_json("nobel_winners.json")
df_nobel.head(5)

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender
0,http://en.wikipedia.org/wiki/Claude_Cohen-Tann...,Claude Cohen-Tannoudji *,1997,Physics,,Algeria,"Claude Cohen-Tannoudji *, Physics, 1997",1 April 1933,,Constantine,,male
1,http://en.wikipedia.org/wiki/John_Cornforth,John Cornforth *,1975,Chemistry,,Australia,"John Cornforth *, Chemistry, 1975",7 September 1917,8 December 2013,Sydney,Brighton,male
2,http://en.wikipedia.org/wiki/Frank_Macfarlane_...,Sir Frank Macfarlane Burnet,1960,Physiology or Medicine,Australia,,"Sir Frank Macfarlane Burnet , Physiology or Me...",3 September 1899,31 August 1985,Traralgon,Melbourne,male
3,http://en.wikipedia.org/wiki/Barry_Marshall,Barry Marshall,2005,Physiology or Medicine,Australia,,"Barry Marshall , Physiology or Medicine, 2005",30 September 1951,,Kalgoorlie,,male
4,http://en.wikipedia.org/wiki/Brian_Schmidt,Brian Schmidt,2011,Physics,Australia,,"Brian Schmidt , born in the United States , P...",24 February 1967,,Missoula,,male


Una vez visualizado esto, comencemos a hacer cada paso que se requiere de la limpieza de datos:

<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">
1. Verificar que todas las entradas de texto estén codificadas en "unicode"

In [39]:
df_nobel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1242 entries, 0 to 1241
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   link            1242 non-null   object
 1   name            1242 non-null   object
 2   year            1242 non-null   int64 
 3   category        1242 non-null   object
 4   country         1242 non-null   object
 5   born_in         1242 non-null   object
 6   text            1242 non-null   object
 7   date_of_birth   1242 non-null   object
 8   date_of_death   1242 non-null   object
 9   place_of_birth  1242 non-null   object
 10  place_of_death  1242 non-null   object
 11  gender          1242 non-null   object
dtypes: int64(1), object(11)
memory usage: 116.6+ KB


Por defecto, en Python, las cadenas de texto son de tipo Unicode. Sin embargo, para una mayor certeza, podemos asegurar esto desde la carga de la base de datos de la siguiente forma:

In [40]:
import pandas as pd

df_nobel = pd.read_json("nobel_winners.json", encoding='utf-8') #agregamos el tipo de codificación que necesitamos

<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">

2. Remplazar entradas vacías por NaN

In [41]:
import numpy as np

df_nobel.replace('', np.nan, inplace=True)
df_nobel.head(5)

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender
0,http://en.wikipedia.org/wiki/Claude_Cohen-Tann...,Claude Cohen-Tannoudji *,1997,Physics,,Algeria,"Claude Cohen-Tannoudji *, Physics, 1997",1 April 1933,,Constantine,,male
1,http://en.wikipedia.org/wiki/John_Cornforth,John Cornforth *,1975,Chemistry,,Australia,"John Cornforth *, Chemistry, 1975",7 September 1917,8 December 2013,Sydney,Brighton,male
2,http://en.wikipedia.org/wiki/Frank_Macfarlane_...,Sir Frank Macfarlane Burnet,1960,Physiology or Medicine,Australia,,"Sir Frank Macfarlane Burnet , Physiology or Me...",3 September 1899,31 August 1985,Traralgon,Melbourne,male
3,http://en.wikipedia.org/wiki/Barry_Marshall,Barry Marshall,2005,Physiology or Medicine,Australia,,"Barry Marshall , Physiology or Medicine, 2005",30 September 1951,,Kalgoorlie,,male
4,http://en.wikipedia.org/wiki/Brian_Schmidt,Brian Schmidt,2011,Physics,Australia,,"Brian Schmidt , born in the United States , P...",24 February 1967,,Missoula,,male


<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">
3. Eliminar los asteriscos que aparece en algunos nombres

In [42]:
#Veamos cuántas entradas tienen asterisco en el nombre
df_nobel[df_nobel['name'].str.contains('\*')]['name']

0        Claude Cohen-Tannoudji *
1                John Cornforth *
5           Elizabeth Blackburn *
9               Daron Acemoglu **
23             Baruj Benacerraf *
                  ...            
1233                Walter Kohn *
1234         Ardem Patapoutian **
1235                Eric Kandel *
1236               Albert Camus *
1237    Emmanuelle Charpentier **
Name: name, Length: 169, dtype: object

In [43]:
#Sustituyamos los asteriscos con un espacio sin caracteres '' en la columna de los nombres
df_nobel['name'] = df_nobel['name'].str.replace('*', '')

#Quitemos los espacios en blanco que haya al final de los nombres
df_nobel['name'] = df_nobel['name'].str.strip()

In [44]:
#Si los nombres con asteriscos han sido sustituidos, deberíamos obtener un dataframe vacío
df_nobel[df_nobel['name'].str.contains('\*')]

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender


<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">
4. Eliminar los individuos repetidos. (Verificar que de veras sea duplicado ya que podría haber ganado 2 veces el nobel en distinto año)

In [45]:
#Veamos aquellos nombres a los cuales les pertenezcan más de una entrada en la base de datos
dup_name = []
for names, rows in df_nobel.groupby('name'):
    if len(rows) > 1:
        dup_name.append(names) #Creamos una lista con estos nombres
        print(names, len(rows))

Aaron Klug 3
Abdulrazak Gurnah 2
Abhijit Banerjee 2
Alan MacDiarmid 2
Albert A. Michelson 2
Albert Camus 2
Albert Einstein 2
Albert Lutuli 2
Albert Schweitzer 2
Alexei Alexeyevich Abrikosov 2
Alexei Ekimov 2
Alfred Werner 2
Allan M. Cormack 2
Andre Geim 2
Andrew Schally 3
Angus Deaton 2
Anne L'Huillier 2
Anthony J. Leggett 2
Ardem Patapoutian 3
Arieh Warshel 2
Arno Penzias 2
Aziz Sancar 2
Baruj Benacerraf 2
Ben Roy Mottelson 2
Bernard Katz 2
Bertha von Suttner 2
Betty Williams 2
Carl Ferdinand Cori 3
Charles B. Huggins 2
Charles J. Pedersen 2
Charles K. Kao 3
Christian de Duve 2
Christopher A. Pissarides 2
Claude Cohen-Tannoudji 2
Czesław Miłosz 3
César Milstein 2
Daniel Bovet 2
Daniel C. Tsui 2
Daniel Kahneman 2
Daron Acemoglu 3
David Card 2
David H. Hubel 2
David MacMillan 2
David Trimble 2
Demis Hassabis 2
Edmond H. Fischer 2
Ei-ichi Negishi 2
Elias Canetti 2
Elie Wiesel 2
Elizabeth Blackburn 2
Emilio Segrè 2
Emmanuelle Charpentier 3
Eric Kandel 2
Ernest Rutherford 2
Ernst Boris Cha

In [46]:
#La longitud de la lista equivale al número de nombres que tienen más de dos registros en la base de datos
len(dup_name)

205

In [47]:
#Coleccionemos los datos repetidos en un nuevo dataframe
all_dupes = df_nobel[df_nobel.duplicated('name') | df_nobel.duplicated('name', keep='last')]
#Aseguremonos de que las entradas aparecen el mismo número de veces que vimos antes
all_dupes.sort_values(by='name')[['name', 'text', 'born_in', 'country', 'year']]

Unnamed: 0,name,text,born_in,country,year
793,Aaron Klug,"Aaron Klug *, Chemistry, 1982",Lithuania,,1982
665,Aaron Klug,"Aaron Klug *, Chemistry, 1982",South Africa,,1982
529,Aaron Klug,"Aaron Klug , born in Lithuania , Chemistry, 1982",,United Kingdom,1982
595,Abdulrazak Gurnah,"Abdulrazak Gurnah *, Literature, 2021",Tanzania,,2021
573,Abdulrazak Gurnah,"Abdulrazak Gurnah , born in Tanzania , Litera...",,United Kingdom,2021
...,...,...,...,...,...
821,Yoichiro Nambu,"Yoichiro Nambu *, Physics, 2008",Japan,,2008
211,Yuan T. Lee,"Yuan T. Lee , born in Taiwan , Chemistry, 1986",,United States,1986
803,Yuan T. Lee,"Yuan T. Lee *, Chemistry, 1986",Japan,,1986
1206,Zhores Alferov,"Zhores Alferov *, Physics, 2000",Belarus,,2000


In [48]:
#Si all_dupes contiene todos lo nombres, entonces su longitud también debe de ser de 205
len(all_dupes.groupby('name'))

205

*Notemos que tenemos 436 filas dentro de nuestros duplicados, sin embargo, haciendo una búsqueda rápida en internet nos encontramos con que sólo 4 personas han ganado más de un premio Nobel: Marie Curie (1903 y 1911),  Linus C. Pauling (1954 y 1962), John Bardeen (1956 y 1972) y Frederick Sanger (1958 y 1980). Esto es, sólo hay 4 duplicados que son razonables dentro de todos los posibles. En otras palabras, 201 de los 205 nombres no tienen razón para estar dos veces en la base de datos y necesitamos quitar una de sus entradas. Un criterio que parece ser razonable es tomar aquellos registros donde la columna `born_in` está vacía, pues este dato está contenido en `text`, así que se puede recuperar para rellenar los datos faltantes.*

In [49]:
#Tomemos los nombres del dataframe de las entradas duplicadas y eliminemos aquellas entradas cuyo lugar de nacimiento no está vacío
for i in dup_name:
    df_nobel.drop(df_nobel[(df_nobel.name == i) & ~(df_nobel.born_in.isna())].index, inplace=True)

In [50]:
#Notemos que la longitud del dataframe original (1242), en efecto, se ha reducido.
len(df_nobel.name)

1082

<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">
5. Ordenar por nombre, país y año.

In [51]:
df_nobel.sort_values(by=['name', 'country', 'year'], inplace=True)
df_nobel.head()

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender
893,http://en.wikipedia.org/wiki/14th_Dalai_Lama,14th Dalai Lama,1989,Peace,India,,"14th Dalai Lama , born in Taktser , China ,...",6 July 1935,,Taktser,,male
279,http://en.wikipedia.org/wiki/A._Michael_Spence,A. Michael Spence,2001,Economics,United States,,"A. Michael Spence , Economics, 2001",7 November 1943,,Montclair,,male
1130,http://en.wikipedia.org/wiki/Aage_Bohr,Aage Bohr,1975,Physics,Denmark,,"Aage Bohr , Physics, 1975",19 June 1922,8 September 2009,Copenhagen,Copenhagen,male
859,http://en.wikipedia.org/wiki/Aaron_Ciechanover,Aaron Ciechanover,2004,Chemistry,Israel,,"Aaron Ciechanover , Chemistry, 2004",1 October 1947,,Haifa,,male
529,http://en.wikipedia.org/wiki/Aaron_Klug,Aaron Klug,1982,Chemistry,United Kingdom,,"Aaron Klug , born in Lithuania , Chemistry, 1982",11 August 1926,20 November 2018,Želva,Cambridge,male


<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">
6. Rellenar la columna "categoría"

In [52]:
#Veamos aquellas categorías que estén vacías 
df_nobel[df_nobel['category'].isna()]

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender
1211,http://en.wikipedia.org/wiki/Isidor_Rabi,Isidor Rabi,0,,Austria,,"Isidor Rabi , Polish-Jewish Orthodox , born...",29 July 1898,11 January 1988,Rymanów,Manhattan,male


*Haciendo la revisión en internet, notamos que Isador Rabi ganó el premio Nobel en Física, de modo que se tiene que añadir esto.*

In [53]:
#Rellenamos la categoría
df_nobel.loc[df_nobel.name == 'Isidor Rabi', 'category'] = 'Physics'

#y, de paso, el año en que ganó el premio
df_nobel.loc[df_nobel.name == 'Isidor Rabi', 'year'] = 1944

In [54]:
#Revisamos los cambios
df_nobel[df_nobel.name == 'Isidor Rabi']

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender
1211,http://en.wikipedia.org/wiki/Isidor_Rabi,Isidor Rabi,1944,Physics,Austria,,"Isidor Rabi , Polish-Jewish Orthodox , born...",29 July 1898,11 January 1988,Rymanów,Manhattan,male


<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">
7. Rellenar el género de los registros faltantes

In [55]:
#Veamos aquellas entradas donde el género está vacío
df_nobel[df_nobel['gender'].isna()]

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender
61,http://en.wikipedia.org/wiki/American_Friends_...,American Friends Service Committee (The Quakers),1947,Peace,United States,,American Friends Service Committee (The Quake...,,,,,
522,http://en.wikipedia.org/wiki/Amnesty_Internati...,Amnesty International,1977,Peace,United Kingdom,,"Amnesty International , Peace, 1977",,,,,
588,http://en.wikipedia.org/wiki/Centre_for_Civil_...,Centre for Civil Liberties,2022,Peace,Ukraine,,"Centre for Civil Liberties , Peace, 2022",,,,,
475,http://en.wikipedia.org/wiki/Friends_Service_C...,Friends Service Council,1947,Peace,United Kingdom,,"Friends Service Council , Peace, 1947",,,,,
1189,http://en.wikipedia.org/wiki/Institut_de_Droit...,Institut de Droit International,1904,Peace,Belgium,,"Institut de Droit International , Peace, 1904",,,,,
716,http://en.wikipedia.org/wiki/Memorial_(society),Memorial,2022,Peace,Russia and Soviet Union,,"Memorial , Peace, 2022",,,,,
1094,http://en.wikipedia.org/wiki/M%C3%A9decins_San...,Médecins Sans Frontières,1999,Peace,France,,"Médecins Sans Frontières , Peace, 1999",,,,,
826,http://en.wikipedia.org/wiki/Nihon_Hidankyo,Nihon Hidankyo,2024,Peace,,Japan,"Nihon Hidankyo *, Peace, 2024",,,,,
790,http://en.wikipedia.org/wiki/Organisation_for_...,Organisation for the Prohibition of Chemical W...,2013,Peace,Netherlands,,Organisation for the Prohibition of Chemical W...,,,,,
1174,http://en.wikipedia.org/wiki/Pugwash_Conferenc...,Pugwash Conferences on Science and World Affairs,1995,Peace,Canada,,Pugwash Conferences on Science and World Affai...,,,,,


*Todas las entradas en este apartado donde el género está vacío pertenecen a organizaciones o instituciones, por lo tanto, no se les puede dar un género y, más adelante, serán eliminadas en el paso 9.*

<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">
8. Convertir los registros de fecha de nacimiento y fecha de muerte en NumPy datetime64

In [56]:
#Comencemos por la fecha de nacimiento
df_nobel['date_of_birth'] = pd.to_datetime(df_nobel.date_of_birth, errors='raise')

#Luego continuamos con la fecha de defunción
df_nobel['date_of_death'] = pd.to_datetime(df_nobel.date_of_death, errors='coerce').dt.date

#Finalmente, para evitar dejar vacías las fechas de fallecimiento, pongamos que hay personas que siguen vivas
df_nobel.loc[df_nobel['date_of_death'].isna(), 'date_of_death'] = 'alive'

In [57]:
#Comprobemos que se han guardado los cambios
df_nobel[['name', 'date_of_birth', 'date_of_death']]

Unnamed: 0,name,date_of_birth,date_of_death
893,14th Dalai Lama,1935-07-06,alive
279,A. Michael Spence,1943-11-07,alive
1130,Aage Bohr,1922-06-19,2009-09-08
859,Aaron Ciechanover,1947-10-01,alive
529,Aaron Klug,1926-08-11,2018-11-20
...,...,...,...
1090,Yves Chauvin,1930-10-10,2015-01-28
706,Zhores Alferov,1930-03-15,2019-03-01
606,Élie Ducommun,1833-02-19,1906-12-07
684,Élie Metchnikoff,1845-05-03,1916-07-02


<div style="background-color: #FFB400; border-left: 10px solid #007acc; padding: 10px; border-radius: 5px; margin: 10px 0;">
9. Eliminar premios que no fueron dados a personas

In [58]:
#Como vimos antes, aquellos premios que no fueron otorgados a personas no tienen género, entonces pordemos eliminarlos
df_nobel.drop(df_nobel[df_nobel.gender.isna()].index, inplace=True)

#Confirmemos que no hay más entradas donde el género no aparezca
df_nobel[df_nobel['gender'].isna()]

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender


In [None]:
#Finalmente, la base de datos tiene la forma
df_nobel_clean = df_nobel
df_nobel_clean #Las entradas pasan de ser 1082 a 1071

Unnamed: 0,link,name,year,category,country,born_in,text,date_of_birth,date_of_death,place_of_birth,place_of_death,gender
893,http://en.wikipedia.org/wiki/14th_Dalai_Lama,14th Dalai Lama,1989,Peace,India,,"14th Dalai Lama , born in Taktser , China ,...",1935-07-06,alive,Taktser,,male
279,http://en.wikipedia.org/wiki/A._Michael_Spence,A. Michael Spence,2001,Economics,United States,,"A. Michael Spence , Economics, 2001",1943-11-07,alive,Montclair,,male
1130,http://en.wikipedia.org/wiki/Aage_Bohr,Aage Bohr,1975,Physics,Denmark,,"Aage Bohr , Physics, 1975",1922-06-19,2009-09-08,Copenhagen,Copenhagen,male
859,http://en.wikipedia.org/wiki/Aaron_Ciechanover,Aaron Ciechanover,2004,Chemistry,Israel,,"Aaron Ciechanover , Chemistry, 2004",1947-10-01,alive,Haifa,,male
529,http://en.wikipedia.org/wiki/Aaron_Klug,Aaron Klug,1982,Chemistry,United Kingdom,,"Aaron Klug , born in Lithuania , Chemistry, 1982",1926-08-11,2018-11-20,Želva,Cambridge,male
...,...,...,...,...,...,...,...,...,...,...,...,...
1090,http://en.wikipedia.org/wiki/Yves_Chauvin,Yves Chauvin,2005,Chemistry,France,,"Yves Chauvin , Chemistry, 2005",1930-10-10,2015-01-28,Menen,Tours,male
706,http://en.wikipedia.org/wiki/Zhores_Alferov,Zhores Alferov,2000,Physics,Russia and Soviet Union,,"Zhores Alferov , born in then Soviet Union, n...",1930-03-15,2019-03-01,Vitebsk,Saint Petersburg,male
606,http://en.wikipedia.org/wiki/%C3%89lie_Ducommun,Élie Ducommun,1902,Peace,Switzerland,,"Élie Ducommun , Peace, 1902",1833-02-19,1906-12-07,Geneva,Bern,male
684,http://en.wikipedia.org/wiki/%C3%89lie_Metchni...,Élie Metchnikoff,1908,Physiology or Medicine,Russia and Soviet Union,,"Élie Metchnikoff , born in now Ukraine , Phys...",1845-05-03,1916-07-02,Ivanivka,Paris,male


In [61]:
#Guardemos la base de datos limpia en un nuevo archivo
df_nobel_clean.to_json('clean_nobel_winners.json', orient='records', lines=True)