# Pandas

## Series

In [1]:
import pandas as pd
series_test = pd.Series([100,200,300])
series_test

0    100
1    200
2    300
dtype: int64

In [2]:
series_test2 = pd.Series({1999:47,2000:65,2001:99})
series_test2

1999    47
2000    65
2001    99
dtype: int64

## DataFrames

In [3]:
frame_test = pd.DataFrame({
    1999:[34,66,88],
    2000:[11,222,44],
    2001:[66,88,11]
})
frame_test

Unnamed: 0,1999,2000,2001
0,34,11,66
1,66,222,88
2,88,44,11


In [4]:
frame_test2 = pd.DataFrame([
    [34,66,88],[11,222,44],[66,88,11]],
    columns=[199,2000,2001]
)
frame_test2

Unnamed: 0,199,2000,2001
0,34,66,88
1,11,222,44
2,66,88,11


## Read Data

In [5]:
el_pais = pd.read_csv('./news/elpais_2021_08_25_articles.csv')
el_universal = pd.read_csv('./news/eluniversal_2020_06_03_articles.csv')
el_pais.head(4)

Unnamed: 0,body,title
0,El exdictador chadiano Hissène Habré ha fallec...,El exdictador chadiano Hissene Habré muere en ...
1,El consejo de administración de EL PAÍS ha rat...,El consejo de administración de EL PAÍS ratifi...
2,"Cuando Dorothy Kosinski, directora de la Phill...",El museo que nació hace 100 años del duelo de ...
3,Aquello que nos acerca a lo que amamos suele e...,Andrea Stefanoni: “Quizás desaparezca antes el...


## Index and Selection

### Dictionary Like

In [6]:
el_pais['title']

0     El exdictador chadiano Hissene Habré muere en ...
1     El consejo de administración de EL PAÍS ratifi...
2     El museo que nació hace 100 años del duelo de ...
3     Andrea Stefanoni: “Quizás desaparezca antes el...
4     La actriz Marion Cotillard, premio Donostia de...
                            ...                        
74    Una residencia de mayores echa a la calle a un...
75    Roglic se concede un capricho en la Vuelta y s...
76    El fiscal de Menores de Ceuta sobre las devolu...
77         El dilema Vinicius y la doble vía del Madrid
78    When did humans start experimenting with alcoh...
Name: title, Length: 79, dtype: object

In [7]:
el_pais[['title','body']]

Unnamed: 0,title,body
0,El exdictador chadiano Hissene Habré muere en ...,El exdictador chadiano Hissène Habré ha fallec...
1,El consejo de administración de EL PAÍS ratifi...,El consejo de administración de EL PAÍS ha rat...
2,El museo que nació hace 100 años del duelo de ...,"Cuando Dorothy Kosinski, directora de la Phill..."
3,Andrea Stefanoni: “Quizás desaparezca antes el...,Aquello que nos acerca a lo que amamos suele e...
4,"La actriz Marion Cotillard, premio Donostia de...",La actriz francesa Marion Cotillard recibirá e...
...,...,...
74,Una residencia de mayores echa a la calle a un...,Una residencia de mayores de Madrid puso el vi...
75,Roglic se concede un capricho en la Vuelta y s...,Por el camino de Almáchar a los montes de la A...
76,El fiscal de Menores de Ceuta sobre las devolu...,"José Luis Puerta (57 años), fiscal de Menores ..."
77,El dilema Vinicius y la doble vía del Madrid,Vinicius trascendió contra el Levante por moti...


### Numpy Like

In [8]:
el_pais.iloc[10:14]

Unnamed: 0,body,title
10,"Ver la tierra desde el espacio, hacer cálculos...","Superordenadores, robots sexuales, turismo esp..."
11,“La felicidad es enorme. Si me tocara la loter...,La batalla por la supervivencia del mercado la...
12,"“¡España, España!”, grita un niño afgano al pi...","Vídeo | “¡España, España!”: así identifican lo..."
13,"After 32 years behind bars, the man who was on...",Mexican cartel ‘boss of bosses’ denies any cri...


In [9]:
el_pais.iloc[55]['title']

'‘¿Me oyes?’, tres guerreras que no claudican en el lado desfavorecido del paraíso canadiense'

In [10]:
el_pais.iloc[:5,0]

0    El exdictador chadiano Hissène Habré ha fallec...
1    El consejo de administración de EL PAÍS ha rat...
2    Cuando Dorothy Kosinski, directora de la Phill...
3    Aquello que nos acerca a lo que amamos suele e...
4    La actriz francesa Marion Cotillard recibirá e...
Name: body, dtype: object

### Label Based

In [11]:
el_pais.loc[:,'body':'title']

Unnamed: 0,body,title
0,El exdictador chadiano Hissène Habré ha fallec...,El exdictador chadiano Hissene Habré muere en ...
1,El consejo de administración de EL PAÍS ha rat...,El consejo de administración de EL PAÍS ratifi...
2,"Cuando Dorothy Kosinski, directora de la Phill...",El museo que nació hace 100 años del duelo de ...
3,Aquello que nos acerca a lo que amamos suele e...,Andrea Stefanoni: “Quizás desaparezca antes el...
4,La actriz francesa Marion Cotillard recibirá e...,"La actriz Marion Cotillard, premio Donostia de..."
...,...,...
74,Una residencia de mayores de Madrid puso el vi...,Una residencia de mayores echa a la calle a un...
75,Por el camino de Almáchar a los montes de la A...,Roglic se concede un capricho en la Vuelta y s...
76,"José Luis Puerta (57 años), fiscal de Menores ...",El fiscal de Menores de Ceuta sobre las devolu...
77,Vinicius trascendió contra el Levante por moti...,El dilema Vinicius y la doble vía del Madrid


## Data wrangling

Es una de las actividades más importantes de todos los profesionales de datos. Simplemente es limpiar, transformar y enriquecer el dataset para objetivos posteriores.

Pandas es una de las herramientas más poderosas para realizar este ““domado”” de datos. Recordemos que Pandas trae muchas de sus abstracciones del lenguaje R, pero nos otorga lo mejor de ambos mundos, por eso es tan popular.

Nos permite:
- generar transformaciones con gran facilidad.
- trabajar rápidamente con datasets grandes
- detectar y reemplazar faltantes
- agrupar y resumir nuestros datos
- visualizar nuestros resultados.

In [13]:
# Añadir newspaper_uid al DataFrame
el_universal['newspaper_uid'] = 'elpais'
el_universal

Unnamed: 0,body,title,url,newspaper_uid
0,\r\n\r\n\r\n\r\n googletag.cmd.push(functio...,Las influencers tapatías que hacen temblar a Y...,http://www.unionjalisco.mx/articulo/2020/06/02...,elpais
1,\r\nEl museo del antiguo campo nazi de la muer...,El museo de Auschwitz pide ayuda para sobreviv...,http://www.eluniversal.com.mx/cultura/patrimon...,elpais
2,\r\nLa Suprema Corte de Justicia de la Nación ...,"Corte avala que funcionarios de Banxico, INE e...",http://www.eluniversal.com.mx/nacion/corte-ava...,elpais
3,\r\nUn grupo de funcionarios descubrió mosquit...,,https://www.viveusa.mx/noticias/mosquitos-con-...,elpais
4,"\r\nEn 1980, Héctor Suárez y Leticia Perdigón ...","Héctor Suárez, zurdo y loco hasta el final",https://www.eluniversalqueretaro.mx/portada/he...,elpais
...,...,...,...,...
133,\r\n\r\nJalisco tiene 2 mil 25 casos confirmad...,Coronavirus Jalisco: Casos confirmados de Covi...,http://www.eluniversal.com.mx/estados/coronavi...,elpais
134,"\r\nLa identidad de Jesús Alfonso Escoboza, me...",Revelan identidad de La Parka en Tik Tok,http://www.eluniversal.com.mx/universal-deport...,elpais
135,\r\n“Fueron días muy duros para mí y mi famili...,“La angustia me invadió ante la posibilidad de...,https://sanluis.eluniversal.com.mx/sociedad/02...,elpais
136,\r\nEl 80% de los restaurantes queretanos tien...,El 80% de los restaurantes no tiene para el pa...,https://www.eluniversalqueretaro.mx/portada/si...,elpais


In [14]:
# 2. Obtener el Host
from urllib.parse import urlparse
el_universal['host'] = el_universal['url'].apply(lambda url: urlparse(url).netloc)

el_universal

Unnamed: 0,body,title,url,newspaper_uid,host
0,\r\n\r\n\r\n\r\n googletag.cmd.push(functio...,Las influencers tapatías que hacen temblar a Y...,http://www.unionjalisco.mx/articulo/2020/06/02...,elpais,www.unionjalisco.mx
1,\r\nEl museo del antiguo campo nazi de la muer...,El museo de Auschwitz pide ayuda para sobreviv...,http://www.eluniversal.com.mx/cultura/patrimon...,elpais,www.eluniversal.com.mx
2,\r\nLa Suprema Corte de Justicia de la Nación ...,"Corte avala que funcionarios de Banxico, INE e...",http://www.eluniversal.com.mx/nacion/corte-ava...,elpais,www.eluniversal.com.mx
3,\r\nUn grupo de funcionarios descubrió mosquit...,,https://www.viveusa.mx/noticias/mosquitos-con-...,elpais,www.viveusa.mx
4,"\r\nEn 1980, Héctor Suárez y Leticia Perdigón ...","Héctor Suárez, zurdo y loco hasta el final",https://www.eluniversalqueretaro.mx/portada/he...,elpais,www.eluniversalqueretaro.mx
...,...,...,...,...,...
133,\r\n\r\nJalisco tiene 2 mil 25 casos confirmad...,Coronavirus Jalisco: Casos confirmados de Covi...,http://www.eluniversal.com.mx/estados/coronavi...,elpais,www.eluniversal.com.mx
134,"\r\nLa identidad de Jesús Alfonso Escoboza, me...",Revelan identidad de La Parka en Tik Tok,http://www.eluniversal.com.mx/universal-deport...,elpais,www.eluniversal.com.mx
135,\r\n“Fueron días muy duros para mí y mi famili...,“La angustia me invadió ante la posibilidad de...,https://sanluis.eluniversal.com.mx/sociedad/02...,elpais,sanluis.eluniversal.com.mx
136,\r\nEl 80% de los restaurantes queretanos tien...,El 80% de los restaurantes no tiene para el pa...,https://www.eluniversalqueretaro.mx/portada/si...,elpais,www.eluniversalqueretaro.mx


In [16]:
el_universal['host'].value_counts()

www.eluniversal.com.mx         79
www.viveusa.mx                 14
de10.com.mx                     8
sanluis.eluniversal.com.mx      6
www.eluniversalqueretaro.mx     6
www.elgrafico.mx                5
oaxaca.eluniversal.com.mx       5
www.unionyucatan.mx             4
www.unionjalisco.mx             3
www.unionpuebla.mx              2
www.unioncdmx.mx                2
www.unionguanajuato.mx          2
www.clubeluniversal.mx          1
www.unionedomex.mx              1
Name: host, dtype: int64

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=f316d070-7577-4574-9433-84366e14acae' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>