# Pandas

`Pandas` es la librería por excelencia para el análisis de datos del lenguaje `Python`. Su nombre proviene de “panel data” (término econométrico). Inspirada en las funcionalidades de `R`, pero con el potencial de este lenguaje de propósito general.

`Pandas` incluye todas las funcionalidades necesarias para el proceso de análisis de datos: carga, filtrado, tratamiento, síntesis, agrupamiento, almacenamiento y visualización. Además, se integra con el resto de librerías de cálculo numérico como `Numpy`, `Matplotlib`, `scikit-learn`, … y de despliegue: `HPC`, `Cloud`, etc.

En resumen, **es como una hoja de cálculo -por ejemplo excel- pero con más mucho más potencial!!!**

[Características principales](https://github.com/pandas-dev/pandas#main-features)

Todo el trabajo que realizaremos es sobre la estructura de datos básica: el `dataFrame`.

Un `dataFrame` es un objeto de dos dimensiones que contiene información. También puede verse como una **hoja de cálculo**, como una tabla de un modelo entidad-relación, o como una colección de una base de datos no relacional.

[Documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

In [2]:
!uv pip install pandas

[2mAudited [1m1 package[0m [2min 60ms[0m[0m


In [3]:
import pandas as pd

## Carga de datos

Vamos a aprender Pandas a través de una serie de proyectos y ejemplos. En esta primera fase, vamos a cargar datos de un fichero `.csv`, recordad que son ficheros donde los atributos/valores de una observación están separados por una coma y las observaciones se separan mediante un salto de línea.

Podemos descargar los datos con los que trabajaremos del siguiente enlace [WHO dataset](https://www.exploredata.net/Downloads/WHO-Data-Set)

Empezamos viendo como se carga un dataframe a partir de un fichero en formato `.csv`.

In [4]:
df = pd.read_csv("data/WHO.csv")
df

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0,4.0,...,692.50,,,,257.00,231.9,257.00,5740436.0,5.44,22.9
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0,0.6,...,3499.12,4.790000e+09,78.14,-2.040000e+09,18.47,15.5,18.47,1431793.9,2.21,45.4
2,Algeria,3,3,6.0,69.9,5940.0,94.0,96.0,33351.0,1.5,...,137535.56,6.970000e+10,351.36,4.700000e+09,40.00,31.2,40.00,20800000.0,2.61,63.3
3,Andorra,4,2,,,,83.0,83.0,74.0,1.0,...,,,,,,,,,,
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0,2.8,...,8991.46,1.490000e+10,27.13,9.140000e+09,164.10,242.5,164.10,8578749.0,4.14,53.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
197,Vietnam,198,6,25.0,90.3,2310.0,91.0,96.0,86206.0,1.4,...,101826.23,4.480000e+10,47.11,-1.940000e+09,20.20,23.4,20.20,21900000.0,2.90,26.4
198,West Bank and Gaza,199,1,,,,,,,,...,655.86,3.780000e+09,,,28.00,25.8,28.00,2596216.0,3.33,71.6
199,Yemen,200,1,83.0,54.1,2090.0,65.0,85.0,21732.0,3.0,...,20148.34,1.150000e+10,114.52,8.310000e+08,82.40,87.9,82.40,5759120.5,4.37,27.3
200,Zambia,201,3,161.0,68.0,1140.0,94.0,90.0,11696.0,1.9,...,2366.94,4.090000e+09,10.41,-4.470000e+08,175.30,163.8,175.30,4017411.0,1.95,35.0


`NaN` vol dir *Not a Number*.

In [8]:
df.shape # Mida (només tindrem files i columnes)

(202, 358)

In [7]:
df.columns # Nom de les columnes

Index(['Country', 'CountryID', 'Continent', 'Adolescent fertility rate (%)',
       'Adult literacy rate (%)',
       'Gross national income per capita (PPP international $)',
       'Net primary school enrolment ratio female (%)',
       'Net primary school enrolment ratio male (%)',
       'Population (in thousands) total', 'Population annual growth rate (%)',
       ...
       'Total_CO2_emissions', 'Total_income', 'Total_reserves',
       'Trade_balance_goods_and_services', 'Under_five_mortality_from_CME',
       'Under_five_mortality_from_IHME', 'Under_five_mortality_rate',
       'Urban_population', 'Urban_population_growth',
       'Urban_population_pct_of_total'],
      dtype='object', length=358)

In [9]:
df.index

RangeIndex(start=0, stop=202, step=1)

### Atributos d'un `DataFrame`

Un dataframe dispone de diferentes atributos con los que podemos obtener su información o metainformación. Los siguientes ejemplos muestran cómo se pueden consultar sus dimensiones o un listado del nombre de sus columnas:

In [10]:
df.columns[:5]

Index(['Country', 'CountryID', 'Continent', 'Adolescent fertility rate (%)',
       'Adult literacy rate (%)'],
      dtype='object')

Podemos aplicar sobre el listado de columnas todas las operaciones sobre listas que hemos visto en la introducción del curso. A continuación tenemos dos ejemplos de indexación:

In [11]:
df.columns[-2]

'Urban_population_growth'

In [15]:
df.columns[0:5]

Index(['Country', 'CountryID', 'Continent', 'Adolescent fertility rate (%)',
       'Adult literacy rate (%)'],
      dtype='object')

In [14]:
df.columns[-5:-1]

Index(['Under_five_mortality_from_IHME', 'Under_five_mortality_rate',
       'Urban_population', 'Urban_population_growth'],
      dtype='object')

In [18]:
len(df.columns)

358

In [21]:
print(df.columns[200:226])
print(df.columns[len(df.columns)-3:len(df.columns)])

Index(['Coal_consumption', 'Coal_consumption_per_person', 'Coal_production',
       'Coal_production_per_person',
       'Colon_and_Rectum_cancer_deaths_per_100_000_men',
       'Colon_and_Rectum_cancer_deaths_per_100_000_women',
       'Colon_and_Rectum_cancer_new_cases_per_100_000_men',
       'Colon_and_Rectum_cancer_new_cases_per_100_000_women',
       'Colon_and_Rectum_cancer_number_of_female_deaths',
       'Colon_and_Rectum_cancer_number_of_male_deaths',
       'Colon_and_Rectum_cancer_number_of_new_female_cases',
       'Colon_and_Rectum_cancer_number_of_new_male_cases',
       'Consumer_price_index', 'Contraceptive_use',
       'Deaths_from_TB_per_100_000_estimated', 'Debt_servicing_costs',
       'Democracy_score', 'Electric_power_consumption',
       'Electricity_generation', 'Electricity_generation_per_person',
       'Energy_use', 'Expenditure_per_student_primary',
       'Expenditure_per_student_secondary', 'Expenditure_per_student_tertiary',
       'Exports_of_goods_and_

**¿Cómo consultariais el nombre de la columna 10? ¿y los de las columnas de la 200 a la 225?**

In [16]:
df.columns[10]

'Population in urban areas (%)'

In [17]:
df.columns[-5]

'Under_five_mortality_from_IHME'

### Funciones descriptivas de un `DataFrame`

`Pandas` ofrece una colección de funciones que permiten realizar una inspección general de la tabla de datos:

- `.describe()`: muestra estadísticas descriptivas básicas para todas las columnas numéricas.
- `.info()`: muestra todas las columnas y sus tipos de datos.
- `.head()` Y `.tail()`: muestra las  primeras/últimas filas. El valor de es un parámetro de este método.

In [61]:
df.describe()

Unnamed: 0,duration_of_response,of_animals,hours_spent_monitoring
count,1000.0,1000.0,138.0
mean,1.39685,1.23,0.882609
std,1.656803,3.536327,0.773858
min,0.1,0.0,0.15
25%,0.5,1.0,0.5
50%,1.0,1.0,0.5
75%,2.0,1.0,1.0
max,35.0,75.0,4.75


In [62]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   date_and_time_of_initial  1000 non-null   object 
 1   date_and_time_of_ranger   1000 non-null   object 
 2   borough                   1000 non-null   object 
 3   property                  1000 non-null   object 
 4   location                  1000 non-null   object 
 5   species_description       1000 non-null   object 
 6   call_source               1000 non-null   object 
 7   species_status            1000 non-null   object 
 8   animal_condition          996 non-null    object 
 9   duration_of_response      1000 non-null   float64
 10  age                       1000 non-null   object 
 11  animal_class              1000 non-null   object 
 12  _311sr_number             389 non-null    object 
 13  final_ranger_action       1000 non-null   object 
 14  of_animal

`object(n)` vol dir que tenim n elements que no es cap dels anteriors

In [26]:
df.head(2)

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0,4.0,...,692.5,,,,257.0,231.9,257.0,5740436.0,5.44,22.9
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0,0.6,...,3499.12,4790000000.0,78.14,-2040000000.0,18.47,15.5,18.47,1431793.9,2.21,45.4


In [25]:
df.tail(2)

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
200,Zambia,201,3,161.0,68.0,1140.0,94.0,90.0,11696.0,1.9,...,2366.94,4090000000.0,10.41,-447000000.0,175.3,163.8,175.3,4017411.0,1.95,35.0
201,Zimbabwe,202,3,101.0,89.5,,88.0,87.0,13228.0,0.8,...,11457.33,5620000000.0,3.39,-171000000.0,106.5,67.0,106.5,4709965.0,1.9,35.9


### Carga de datos 2 (segunda parte)

Desafortunadamente, la estructura y codificación de los datos en los archivos CSV varía según la herramienta o el sistema operativo. Por lo tanto, podemos encontrarnos con separadores entre columnas que no sean la típica coma (‘,’) o formatos de codificación de texto que no sean abiertos (por ejemplo, utf-8, ansi, etc.).

Es por esto que la función `pd.read_csv()` es muy versátil. Puedes consultar su [documentación](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

Vamos a ver qué sucede cuando se obtienen datos de una administración pública. Puedes encontrar el archivo disponible en: ‘data/presupuesto_gastos_2023.csv’. Puedes acceder a estos datos a través del siguiente [enlace](https://datos.gob.es/es/catalogo/conjuntos-datos?q=bilbao&g-recaptcha-response=&administration_level=L&theme_id=economia&sort=score+desc%2C+metadata_created+desc).

Volem que el fitxer sigui consistent, és a dir que el `delimiter` per a cada nombre sigui el mateix, o per separar la part entera i part decimal

In [68]:
df_gastos = pd.read_csv("data/presupuesto_gastos_2023.csv", encoding="utf-8", sep=";") # quins errors genera ?
df_gastos.head(2)

Unnamed: 0,"URL,TIPO DE ENTIDAD,IDENTIFICADOR,TÍTULO,DESCRIPCIÓN,TEMÁTICAS,ETIQUETAS,FECHA DE CREACIÓN,FECHA DE ÚLTIMA MODIFICACIÓN,FRECUENCIA DE ACTUALIZACIÓN,IDIOMAS,ÓRGANO PUBLICADOR,CONDICIONES DE USO,COBERTURA GEOGRÁFICA,COBERTURA TEMPORAL,VIGENCIA DEL RECURSO,RECURSOS RELACIONADOS,NORMATIVA,DISTRIBUCIONES,URL DE ACCESO"
0,https://datos.gob.es/catalogo/l01480209-presup...


#### Codificación de datos

In [69]:
var = "camión"
var = "lul·lià"
var = "Ζεύς"
var = "ประเทศไทย"
var = "日本語で"

#### Otra manera de cargar datos

In [73]:
# por la dirección del fichero en web
df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") #dataframe

In [74]:
df_who.head(2)

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0,4.0,...,692.5,,,,257.0,231.9,257.0,5740436.0,5.44,22.9
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0,0.6,...,3499.12,4790000000.0,78.14,-2040000000.0,18.47,15.5,18.47,1431793.9,2.21,45.4


In [51]:
!uv pip install lxml

[2mResolved [1m1 package[0m [2min 225ms[0m[0m
[2mPrepared [1m1 package[0m [2min 645ms[0m[0m
[2mInstalled [1m1 package[0m [2min 48ms[0m[0m
 [32m+[39m [1mlxml[0m[2m==6.0.2[0m


In [76]:
import pandas as pd

url = "https://es.wikipedia.org/wiki/Anexo:Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa%C3%B1a"

# Afegim una capçalera d'usuari
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"}

# Llegim la pàgina amb la capçalera
comunidades_esp = pd.read_html(url, storage_options=headers)

# Mostrem la primera taula
comunidades_esp[0].head()


Unnamed: 0.1,Unnamed: 0,Nombre,Capital (de iure o en su defecto de facto),Población (1 de enero de 2024),Porcentaje población (2023),Densidad (hab./km²) (2023),Superficie (km²),Porcentaje superficie,Mapa,PIB per cápita en € (2022)
0,1,Andalucía,Sevilla,8 631 862,"17,85 %",9799,87 599,"17,31 %",,21 091
1,2,Cataluña,Barcelona,8 012 231,"16,43 %",24607,32 113,"6,35 %",,32 550
2,3,Comunidad de Madrid,Madrid,7 009 268,"14,29 %",85599,8028,"1,59 %",,38 435
3,4,Comunidad Valenciana,Valencia,5 319 285,"10,85 %",22430,23 255,"4,60 %",,24 473
4,5,Galicia,Santiago de Compostela,2 705 833,"5,61 %",9127,29 575,"5,84 %",,25 906


In [77]:
print(type(comunidades_esp[0]))
df_comunidades_esp = comunidades_esp[0]
df_comunidades_esp.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0.1,Unnamed: 0,Nombre,Capital (de iure o en su defecto de facto),Población (1 de enero de 2024),Porcentaje población (2023),Densidad (hab./km²) (2023),Superficie (km²),Porcentaje superficie,Mapa,PIB per cápita en € (2022)
0,1,Andalucía,Sevilla,8 631 862,"17,85 %",9799,87 599,"17,31 %",,21 091
1,2,Cataluña,Barcelona,8 012 231,"16,43 %",24607,32 113,"6,35 %",,32 550
2,3,Comunidad de Madrid,Madrid,7 009 268,"14,29 %",85599,8028,"1,59 %",,38 435
3,4,Comunidad Valenciana,Valencia,5 319 285,"10,85 %",22430,23 255,"4,60 %",,24 473
4,5,Galicia,Santiago de Compostela,2 705 833,"5,61 %",9127,29 575,"5,84 %",,25 906


In [57]:
# Contenido JSON (les API venen amb aquestes dades)
#Fuente: https://data.cityofnewyork.us/Environment/Urban-Park-Ranger-Animal-Condition-Response/fuhs-xmg2
url = 'https://data.cityofnewyork.us/resource/s3vf-x992.json'
df = pd.read_json(url)
df.head()

Unnamed: 0,date_and_time_of_initial,date_and_time_of_ranger,borough,property,location,species_description,call_source,species_status,animal_condition,duration_of_response,...,_311sr_number,final_ranger_action,of_animals,pep_response,animal_monitored,police_response,esu_response,acc_intake_number,hours_spent_monitoring,rehabilitator
0,2021-06-23T16:45:00.000,2021-06-24T08:00:00.000,Brooklyn,Sternberg Park,Inside locked athletic field under construction,Chukar,Other,Exotic,Healthy,6.0,...,311-06712416,ACC,6,False,False,False,False,163537.0,,
1,2021-06-24T10:00:00.000,2021-06-24T11:00:00.000,Bronx,Haffen Park,Haffen Pool,Sparrow,Central,Native,Healthy,1.75,...,311-06714879,Rehabilitator,4,False,False,False,False,,,
2,2021-06-23T14:30:00.000,2021-06-23T14:30:00.000,Bronx,Pelham Bay Park,Pelham Bay South,White-tailed Deer,Employee,Native,,1.0,...,,Unfounded,0,False,False,False,False,,,
3,2021-06-23T13:00:00.000,2021-06-23T13:10:00.000,Staten Island,Willowbrook Park,The carousel,Raccoon,Employee,Native,,2.0,...,,Unfounded,0,False,False,False,False,,,
4,2021-06-23T09:20:00.000,2021-06-23T09:20:00.000,Queens,Judge Moses Weinstein Playground,Garbage can,Virginia Opossum,Central,Native,Healthy,2.25,...,311-06699415,ACC,1,False,False,False,False,119833.0,,


### Activitats

En esta actividad practicaremos la carga de datos en diferentes formatos. En el mundo real, los datos no siempre tienen una estructura y un formato como desearíamos.

El objetivo es que analices la carga de estos datos con los datos originales:
- ¿Qué dimensión tienen los datos reales y los cargados?
- ¿Cuáles son las columnas?
- ¿El concepto de columna como atributo o característica y el concepto de fila como muestra están presentes en la estructura de los datos?
- ¿Coinciden con la información del archivo?

1. **Descarga y carga el siguiente fichero:**
[Enlace](https://data.cityofnewyork.us/Housing-Development/Speculation-Watch-List/adax-9mit)

In [78]:
!uv pip install openpyxl

[2mAudited [1m1 package[0m [2min 53ms[0m[0m


In [84]:
df = pd.read_excel("data/Speculation_Watch_List_Data_Dictionary.xlsx")

df.head(6)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,Data Dictionary - Dataset Information,
1,,
2,General,
3,Dataset Name,Speculation Watch List
4,Agency Name,Department of Housing Preservation and Develop...
5,Update Frequency,Quarterly


2. **Descarga y carga el siguiente fichero:**
[Enlace](https://ibestat.caib.es/ibestat/estadistiques/poblacio/naixements/414cab4f-b402-4cd1-af05-6617443de384)

In [None]:
# No funciona l'enllaç

3. **Y ahora Descargalo y abrelo comprimido!!!. Es decir, sin descomprimir!**
[Enlace](https://ec.europa.eu/eurostat/databrowser/view/tin00171/default/table?lang=en)

Los archivos comprimidos en formato .gz se pueden abrir directamente como si fueran archivos de datos con Pandas, y en este caso, son archivos del tipo CSV. Es decir, no es necesario descomprimirlos

In [85]:
df = pd.read_csv("data/tin00171_page_linear.csv.gz")

df.head(5)

Unnamed: 0,DATAFLOW,LAST UPDATE,freq,c_resid,unit,nace_r2,geo,TIME_PERIOD,OBS_VALUE,OBS_FLAG,CONF_STATUS
0,ESTAT:TIN00171(1.0),30/10/25 23:00:00,Monthly,Domestic country,Number,Hotels; holiday and other short-stay accommoda...,Albania,2024-09,271802,,
1,ESTAT:TIN00171(1.0),30/10/25 23:00:00,Monthly,Domestic country,Number,Hotels; holiday and other short-stay accommoda...,Albania,2024-10,144879,,
2,ESTAT:TIN00171(1.0),30/10/25 23:00:00,Monthly,Domestic country,Number,Hotels; holiday and other short-stay accommoda...,Albania,2024-11,87044,,
3,ESTAT:TIN00171(1.0),30/10/25 23:00:00,Monthly,Domestic country,Number,Hotels; holiday and other short-stay accommoda...,Albania,2024-12,103310,,
4,ESTAT:TIN00171(1.0),30/10/25 23:00:00,Monthly,Domestic country,Number,Hotels; holiday and other short-stay accommoda...,Albania,2025-01,89172,,


## Guardando un `DataFrame`

Durante este curso aprenderemos a modificar los dataframes, agregaremos y eliminaremos columnas, y también modificaremos las que ya tenemos. Por lo tanto, después de realizar este trabajo, es necesario guardar los nuevos datos en un archivo.

In [86]:
df_gastos.to_csv('data/tmp_file.csv',encoding='utf-8') # guardant un dataframe en un fitxer, especificant el format

## Estructura d'un `DataFrame`

Ahora que ya sabemos cargar dataframes desde archivos, descubriremos cómo podemos acceder a la información que se encuentra dentro de los tipos de variables utilizados por `Pandas`.

Un dataframe tiene columnas y filas. Las filas son muestras y las columnas representan características de una muestra. Una columna es del tipo Serie.

El **objetivo** de esta unidad es adquirir herramientas para comprender y seleccionar los datos representados en un dataframe y una serie con `Pandas`.

Comenzaremos seleccionando columnas y obteniendo resúmenes estadísticos de ellas. Más adelante, pasaremos a realizar selecciones de filas en el dataframe. Finalmente, realizaremos selecciones combinadas creando nuestros propios dataframes a partir de los subconjuntos seleccionados.”

In [87]:
import pandas as pd

df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") #dataframe

In [88]:
df_who.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202 entries, 0 to 201
Columns: 358 entries, Country to Urban_population_pct_of_total
dtypes: float64(355), int64(2), object(1)
memory usage: 565.1+ KB


In [89]:
df_who.describe()

Unnamed: 0,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),Population in urban areas (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
count,202.0,202.0,177.0,131.0,178.0,179.0,179.0,193.0,193.0,193.0,...,186.0,178.0,128.0,171.0,181.0,170.0,181.0,188.0,188.0,188.0
mean,101.5,3.579208,59.457627,78.871756,11250.11236,84.03352,85.698324,34098.05,1.297927,54.911917,...,148359.6,201556700000.0,57.253516,342401200.0,56.677624,54.356471,56.677624,16657630.0,2.165851,55.195213
std,58.456537,1.808263,49.105286,20.41576,12586.753417,17.788047,15.451212,130495.7,1.163864,23.554182,...,613309.1,940068900000.0,138.669298,59430430000.0,60.060929,61.160556,60.060929,50948670.0,1.596628,23.742122
min,1.0,1.0,0.0,23.6,260.0,6.0,11.0,2.0,-2.5,10.0,...,25.65,51900000.0,0.99,-714000000000.0,2.9,3.0,2.9,15456.0,-1.16,10.0
25%,51.25,2.0,19.0,68.4,2112.5,79.0,79.5,1340.0,0.5,36.0,...,1672.615,3317500000.0,16.2925,-1210000000.0,12.4,8.475,12.4,917162.3,1.105,35.65
50%,101.5,3.0,46.0,86.5,6175.0,90.0,90.0,6762.0,1.3,57.0,...,10211.57,11450000000.0,28.515,-224000000.0,29.98,27.6,29.98,3427661.0,1.945,57.3
75%,151.75,5.0,91.0,95.3,14502.5,96.0,96.0,21732.0,2.1,73.0,...,65492.17,86800000000.0,55.31,1024000000.0,88.7,82.9,88.7,9837113.0,3.2525,72.75
max,202.0,7.0,199.0,99.8,60870.0,100.0,100.0,1328474.0,4.3,100.0,...,5776432.0,11000000000000.0,1334.86,139000000000.0,267.0,253.7,267.0,527000000.0,7.85,100.0


### Columnes

In [91]:
df_who.shape

(202, 358)

In [92]:
# Columnas o características de cada muestra
print(df_who.columns)

Index(['Country', 'CountryID', 'Continent', 'Adolescent fertility rate (%)',
       'Adult literacy rate (%)',
       'Gross national income per capita (PPP international $)',
       'Net primary school enrolment ratio female (%)',
       'Net primary school enrolment ratio male (%)',
       'Population (in thousands) total', 'Population annual growth rate (%)',
       ...
       'Total_CO2_emissions', 'Total_income', 'Total_reserves',
       'Trade_balance_goods_and_services', 'Under_five_mortality_from_CME',
       'Under_five_mortality_from_IHME', 'Under_five_mortality_rate',
       'Urban_population', 'Urban_population_growth',
       'Urban_population_pct_of_total'],
      dtype='object', length=358)


In [93]:
# Retorna el label de cada una de les columnes

# for ix, col in enumerate(df_who.columns): #label
    #print("ix:%i\tlabel:%s"%(ix,col))

In [94]:
type(df_who)

pandas.core.frame.DataFrame

In [95]:
type(df_who.columns)

pandas.core.indexes.base.Index

Podemos utilizar el nombre de una columna para obtener los datos de dicha columna, tal como lo hacíamos con un diccionario `python`. Veremos dos maneras diferentes de hacerlo:

In [96]:
paises = df_who["Country"]
paises

0             Afghanistan
1                 Albania
2                 Algeria
3                 Andorra
4                  Angola
              ...        
197               Vietnam
198    West Bank and Gaza
199                 Yemen
200                Zambia
201              Zimbabwe
Name: Country, Length: 202, dtype: object

**Quin tipus de dades és una columna?**

In [97]:
type(df_who["Country"])

pandas.core.series.Series

Las Series són la otra estructura básica de `Pandas`. Las filas y las columnas se estructuran en `Series`, se pueden ver cómo un tipo de lista que solamente puede contener un único tipo de datos, acepta operaciones vectoriales y se puede indexar de manera similar a un diccionario.

Una vez que seleccionamos una columna, podemos acceder a sus elementos como si fueran una lista:

In [98]:
print(df_who["Country"][0])
print("-"*30)
print(df_who["Country"][:5]) # slicing
print("-"*30)
print(df_who["Country"].values)

Afghanistan
------------------------------
0    Afghanistan
1        Albania
2        Algeria
3        Andorra
4         Angola
Name: Country, dtype: object
------------------------------
['Afghanistan' 'Albania' 'Algeria' 'Andorra' 'Angola'
 'Antigua and Barbuda' 'Argentina' 'Armenia' 'Australia' 'Austria'
 'Azerbaijan' 'Bahamas' 'Bahrain' 'Bangladesh' 'Barbados' 'Belarus'
 'Belgium' 'Belize' 'Benin' 'Bermuda' 'Bhutan' 'Bolivia'
 'Bosnia and Herzegovina' 'Botswana' 'Brazil' 'Brunei Darussalam'
 'Bulgaria' 'Burkina Faso' 'Burundi' 'Cambodia' 'Cameroon' 'Canada'
 'Cape Verde' 'Central African Republic' 'Chad' 'Chile' 'China' 'Colombia'
 'Comoros' 'Congo, Dem. Rep.' 'Congo, Rep.' 'Cook Islands' 'Costa Rica'
 "Cote d'Ivoire" 'Croatia' 'Cuba' 'Cyprus' 'Czech Republic' 'Denmark'
 'Djibouti' 'Dominica' 'Dominican Republic' 'Ecuador' 'Egypt'
 'El Salvador' 'Equatorial Guinea' 'Eritrea' 'Estonia' 'Ethiopia' 'Fiji'
 'Finland' 'France' 'French Polynesia' 'Gabon' 'Gambia' 'Georgia'
 'Germany' 'Gh

**Nota:** En la creación de documentos, es importante usar nombres adecuados para las columnas.

In [99]:
df_who.Country

0             Afghanistan
1                 Albania
2                 Algeria
3                 Andorra
4                  Angola
              ...        
197               Vietnam
198    West Bank and Gaza
199                 Yemen
200                Zambia
201              Zimbabwe
Name: Country, Length: 202, dtype: object

In [100]:
print(df_who.columns[9])
print("-"*30)
print(df_who[df_who.columns[9]])

Population annual growth rate (%)
------------------------------
0      4.0
1      0.6
2      1.5
3      1.0
4      2.8
      ... 
197    1.4
198    NaN
199    3.0
200    1.9
201    0.8
Name: Population annual growth rate (%), Length: 202, dtype: float64


In [101]:
# Multiples columnas
df_who[df_who.columns[0:5]]

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%)
0,Afghanistan,1,1,151.0,28.0
1,Albania,2,2,27.0,98.7
2,Algeria,3,3,6.0,69.9
3,Andorra,4,2,,
4,Angola,5,3,146.0,67.4
...,...,...,...,...,...
197,Vietnam,198,6,25.0,90.3
198,West Bank and Gaza,199,1,,
199,Yemen,200,1,83.0,54.1
200,Zambia,201,3,161.0,68.0


In [102]:
# Dos columnas específicas
df_who[["CountryID","Continent"]]

Unnamed: 0,CountryID,Continent
0,1,1
1,2,2
2,3,3
3,4,2
4,5,3
...,...,...
197,198,6
198,199,1
199,200,1
200,201,3


In [103]:
# Existen dos métodos loc e iloc para acceder a sub-regiones de los datos
# funció: .iloc(filas, columnas)
df2 = df_who.iloc[:,3:5]
print(df2.shape)
print(df2.head())

(202, 2)
   Adolescent fertility rate (%)  Adult literacy rate (%)
0                          151.0                     28.0
1                           27.0                     98.7
2                            6.0                     69.9
3                            NaN                      NaN
4                          146.0                     67.4


#### Sobre Sèries

Cuando seleccionamos una columna de un `DataFrame`, obtenemos una `Serie`. Las Series tienen ciertas características, como la capacidad de aplicar métodos estadísticos (si son `Serie` numéricas).

In [105]:
fertilitat = df_who[df_who.columns[3]]
fertilitat

0      151.0
1       27.0
2        6.0
3        NaN
4      146.0
       ...  
197     25.0
198      NaN
199     83.0
200    161.0
201    101.0
Name: Adolescent fertility rate (%), Length: 202, dtype: float64

In [106]:
print("Min ", fertilitat.min()) # a Pandas el concepte d'iterar "no té sentit"
print("Max ", fertilitat.max())
print("Count ", fertilitat.count())

Min  0.0
Max  199.0
Count  177


**Quin pais té produeix la major emisió de CO2?**

In [107]:
co2 = df_who["Total_CO2_emissions"]
co2.max()

np.float64(5776431.5)

In [108]:
df_who[co2==co2.max()]["Country"].values[0]

'United States of America'

In [109]:
co2 = df_who["Total_CO2_emissions"]
co2

0         692.50
1        3499.12
2      137535.56
3            NaN
4        8991.46
         ...    
197    101826.23
198       655.86
199     20148.34
200      2366.94
201     11457.33
Name: Total_CO2_emissions, Length: 202, dtype: float64

In [111]:
co2.max()

np.float64(5776431.5)

In [112]:
co2==co2.max()

0      False
1      False
2      False
3      False
4      False
       ...  
197    False
198    False
199    False
200    False
201    False
Name: Total_CO2_emissions, Length: 202, dtype: bool

In [113]:
df_who[co2==co2.max()]

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
192,United States of America,193,4,43.0,,44070.0,93.0,91.0,302841.0,1.0,...,5776431.5,11000000000000.0,,-714000000000.0,8.0,7.1,8.0,240000000.0,1.39,80.8


In [114]:
df_who[co2==co2.max()]["Country"]

192    United States of America
Name: Country, dtype: object

In [115]:
df_who[co2==co2.max()]["Country"].values

array(['United States of America'], dtype=object)

In [116]:
df_who[co2==co2.max()]["Country"].values[0]

'United States of America'

In [117]:
# También existen métodos para seleccionar de manera aleatoria muestras dentro de una serie
# Tip: Métodos montecarlo
fertilidad = df_who[df_who.columns[3]]
some = fertilidad.sample(n=3)
print(some)
fertilidad.sample(n=3,random_state=2) #on random_state és la llavor/seed del aleatori

83     19.0
115    94.0
112     NaN
Name: Adolescent fertility rate (%), dtype: float64


53      48.0
149     28.0
13     135.0
Name: Adolescent fertility rate (%), dtype: float64

### Files

Cada fila tiene un índice. El índice puede ser numérico, alfabético o temporal.

In [118]:
df_who.index

RangeIndex(start=0, stop=202, step=1)

In [119]:
df_who.index.values

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
       156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
       169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 18

Así como seleccionamos columnas, podemos seleccionar información con para obtener filas. Para realizar la consulta de una fila concreta usaremos el atributo `loc` de los dataframes.

In [121]:
import pandas as pd

df = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") #dataframe
print(df.loc[0])

Country                           Afghanistan
CountryID                                   1
Continent                                   1
Adolescent fertility rate (%)           151.0
Adult literacy rate (%)                  28.0
                                     ...     
Under_five_mortality_from_IHME          231.9
Under_five_mortality_rate               257.0
Urban_population                    5740436.0
Urban_population_growth                  5.44
Urban_population_pct_of_total            22.9
Name: 0, Length: 358, dtype: object


Si lo que necesitamos es obtener son los valores, necesitaremos el atributo `values`:

In [123]:
# df.loc[0].values # Comanda molt llarga

In [124]:
print(df_who.loc[0].Country)
print(df_who.loc[0][0])
print(df_who.loc[0][3])

Afghanistan
Afghanistan
151.0


  print(df_who.loc[0][0])
  print(df_who.loc[0][3])


Utilizando el atributo `loc` del dataframe podemos seleccionar y filtrar las filas (y columnas) mediante labels. En el caso de filas, el label es el índice y si éste es númerico podemos usar los *slicing* típicos de `Python`.

`.loc(row_labels,columns_labels)`

Recordemos el slicing: `{python} sublista = lista[start:stop:step]`

Dónde:
- **start**: Posición de la lista original dónde empieza la sublista. Si no se indica és 0.
- **stop**: Posición de la lista original hasta donde seleccionar. Se selecciona hasta la posición stop - 1.
- **step**: Incremento entre cada índice de la selección, por defecto 1.

In [126]:
df.loc[4:10:2]

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0,2.8,...,8991.46,14900000000.0,27.13,9140000000.0,164.1,242.5,164.1,8578749.0,4.14,53.3
6,Argentina,7,5,62.0,97.2,11670.0,98.0,99.0,39134.0,1.0,...,152711.86,314000000000.0,21.11,11900000000.0,18.1,16.7,18.1,34900000.0,1.17,90.1
8,Australia,9,6,16.0,,33940.0,97.0,96.0,20530.0,1.1,...,368858.53,468000000000.0,,-12800000000.0,5.9,5.1,5.9,18000000.0,1.54,88.2
10,Azerbaijan,11,2,31.0,98.8,5430.0,83.0,86.0,8406.0,0.6,...,36629.01,9930000000.0,64.89,1330000000.0,50.0,63.7,50.0,4321803.0,1.26,51.5


In [127]:
# Fent servir una llista
df.loc[[3,10,29,34]]

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
3,Andorra,4,2,,,,83.0,83.0,74.0,1.0,...,,,,,,,,,,
10,Azerbaijan,11,2,31.0,98.8,5430.0,83.0,86.0,8406.0,0.6,...,36629.01,9930000000.0,64.89,1330000000.0,50.0,63.7,50.0,4321803.0,1.26,51.5
29,Cambodia,30,7,52.0,73.6,1550.0,89.0,91.0,14197.0,1.7,...,538.61,5680000000.0,32.94,-547000000.0,97.3,94.3,97.3,2749235.0,4.58,19.7
34,Chad,35,3,193.0,25.7,1170.0,49.0,71.0,10468.0,3.1,...,139.23,2790000000.0,14.17,-221000000.0,208.2,180.1,208.2,2566839.0,4.88,25.3


### Selecció de files i columnes

Las columnas se deben seleccionar con una **lista** que debe contener el nombre de las columnas deseadas.

In [128]:
df.loc[0:1,["Continent"]]

Unnamed: 0,Continent
0,1
1,2


In [129]:
df.loc[0:3,["Continent","Total_CO2_emissions"]]

Unnamed: 0,Continent,Total_CO2_emissions
0,1,692.5
1,2,3499.12
2,3,137535.56
3,2,


In [130]:
df.loc[[0,3,20,100],["Country","Continent","Total_CO2_emissions"]]

Unnamed: 0,Country,Continent,Total_CO2_emissions
0,Afghanistan,1,692.5
3,Andorra,2,
20,Bhutan,7,414.03
100,Liberia,3,472.66


Alternativamente, con el atributo `iloc` podemos seleccionar las columnas con su índice numérico: su posicion en la lista de columnas.

In [131]:
# Seleccionam les columnes amb l´índex
df.iloc[0]

Country                           Afghanistan
CountryID                                   1
Continent                                   1
Adolescent fertility rate (%)           151.0
Adult literacy rate (%)                  28.0
                                     ...     
Under_five_mortality_from_IHME          231.9
Under_five_mortality_rate               257.0
Urban_population                    5740436.0
Urban_population_growth                  5.44
Urban_population_pct_of_total            22.9
Name: 0, Length: 358, dtype: object

In [132]:
df.iloc[0:4, 3:7] # ídem a una matriz

Unnamed: 0,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%)
0,151.0,28.0,,
1,27.0,98.7,6000.0,93.0
2,6.0,69.9,5940.0,94.0
3,,,,83.0


In [133]:
df.iloc[0][0]

  df.iloc[0][0]


'Afghanistan'

In [134]:
df.iloc[0][0:4]

Country                          Afghanistan
CountryID                                  1
Continent                                  1
Adolescent fertility rate (%)          151.0
Name: 0, dtype: object

In [135]:
df.iloc[0][0:4].values

array(['Afghanistan', np.int64(1), np.int64(1), np.float64(151.0)],
      dtype=object)

In [136]:
df.iloc[0][0:4].values[0]

'Afghanistan'

### Selecció condicional

Además de la selección con base a índices, lo interesante es realizar selecciones mediante condiciones lógicas que permiten filtrar las filas del dataset. Por ejemplo:

In [137]:
df_who = pd.read_csv("http://www.exploredata.net/ftp/WHO.csv") #dataframe

alfabetitzacio = df_who[df_who['Adult literacy rate (%)'] > 70][["Country","Adult literacy rate (%)"]]


alfabetitzacio[alfabetitzacio["Country"] == "Italy"]

Unnamed: 0,Country,Adult literacy rate (%)
85,Italy,98.4


In [138]:
df_who['Adult literacy rate (%)'] > 70

0      False
1       True
2      False
3      False
4      False
       ...  
197     True
198    False
199    False
200    False
201     True
Name: Adult literacy rate (%), Length: 202, dtype: bool

In [140]:
seleccio = df_who['Adult literacy rate (%)'] > 70

# En aquest codi, de les files on seleccio == True agafam les dues columnes que ens interessen
df_who[seleccio][["Country","Adult literacy rate (%)"]]

Unnamed: 0,Country,Adult literacy rate (%)
1,Albania,98.7
6,Argentina,97.2
7,Armenia,99.4
10,Azerbaijan,98.8
12,Bahrain,86.5
...,...,...
193,Uruguay,96.8
195,Vanuatu,75.5
196,Venezuela,93.0
197,Vietnam,90.3


In [141]:
# Multiples criterios
# CO_emisions y Fertilidad
import numpy as np
ix = np.where((df_who["Total_CO2_emissions"] > 10) & (df_who[df_who.columns[3]] <=0.6))
ix

(array([92]),)

#### Estadístiques d'un `DataFrame`

In [142]:
# Creamos un dataframe  con valores aleatorios
import numpy as np

np.random.seed(10)

df = pd.DataFrame({"one":np.random.randint(-10,10,5),
                  "two":np.random.random(5),
                  "three":np.random.randint(0,5,5)})
df

Unnamed: 0,one,two,three
0,-1,0.748804,0
1,-6,0.498507,2
2,5,0.224797,0
3,-10,0.198063,4
4,7,0.760531,3


In [143]:
df.T

Unnamed: 0,0,1,2,3,4
one,-1.0,-6.0,5.0,-10.0,7.0
two,0.748804,0.498507,0.224797,0.198063,0.760531
three,0.0,2.0,0.0,4.0,3.0


In [144]:
df.sum()

one     -5.000000
two      2.430701
three    9.000000
dtype: float64

In [145]:
df.sum(axis=1) # concepto de axis

0    -0.251196
1    -3.501493
2     5.224797
3    -5.801937
4    10.760531
dtype: float64

In [146]:
df.cumsum()

Unnamed: 0,one,two,three
0,-1,0.748804,0
1,-7,1.247311,2
2,-2,1.472108,2
3,-12,1.67017,6
4,-5,2.430701,9


In [147]:
df.cumsum(axis=1)

Unnamed: 0,one,two,three
0,-1.0,-0.251196,-0.251196
1,-6.0,-5.501493,-3.501493
2,5.0,5.224797,5.224797
3,-10.0,-9.801937,-5.801937
4,7.0,7.760531,10.760531


In [148]:
df.apply(np.abs,axis=1).cumsum() # función apply

Unnamed: 0,one,two,three
0,1,0.748804,0
1,7,1.247311,2
2,12,1.472108,2
3,22,1.67017,6
4,29,2.430701,9


In [149]:
df.apply(np.abs).cumsum(axis=1)

Unnamed: 0,one,two,three
0,1.0,1.748804,1.748804
1,6.0,6.498507,8.498507
2,5.0,5.224797,5.224797
3,10.0,10.198063,14.198063
4,7.0,7.760531,10.760531


In [150]:
df.cumprod()

Unnamed: 0,one,two,three
0,-1,0.748804,0
1,6,0.373284,0
2,30,0.083913,0
3,-300,0.01662,0
4,-2100,0.01264,0


In [151]:
df.cumprod(axis=1)

Unnamed: 0,one,two,three
0,-1.0,-0.748804,-0.0
1,-6.0,-2.991042,-5.982084
2,5.0,1.123983,0.0
3,-10.0,-1.980629,-7.922515
4,7.0,5.323715,15.971145


In [152]:
ones = np.ones(5) # numpy arrays
print(ones)

[1. 1. 1. 1. 1.]


In [153]:
df.sub(ones,axis=0)

Unnamed: 0,one,two,three
0,-2.0,-0.251196,-1.0
1,-7.0,-0.501493,1.0
2,4.0,-0.775203,-1.0
3,-11.0,-0.801937,3.0
4,6.0,-0.239469,2.0


In [154]:
# df.sub(ones) #Alerta! Dona error

In [155]:
# nornalitzación z-score (media a 0 y desviación a 1)
ts_stand = (df - df.mean()) / df.std()
ts_stand

Unnamed: 0,one,two,three
0,0.0,0.966021,-1.006231
1,-0.696733,0.045482,0.111803
2,0.83608,-0.961166,-1.006231
3,-1.254119,-1.059487,1.229837
4,1.114773,1.00915,0.67082


In [156]:
print(ts_stand.mean())
print("----")
print(ts_stand.std())

one      0.000000e+00
two      2.664535e-16
three    6.661338e-17
dtype: float64
----
one      1.0
two      1.0
three    1.0
dtype: float64


#### Sèries no numèriques

In [157]:
df_who["Country"]

0             Afghanistan
1                 Albania
2                 Algeria
3                 Andorra
4                  Angola
              ...        
197               Vietnam
198    West Bank and Gaza
199                 Yemen
200                Zambia
201              Zimbabwe
Name: Country, Length: 202, dtype: object

In [158]:
#https://www.w3schools.com/python/python_ref_string.asp
df_who.Country.str.casefold()

0             afghanistan
1                 albania
2                 algeria
3                 andorra
4                  angola
              ...        
197               vietnam
198    west bank and gaza
199                 yemen
200                zambia
201              zimbabwe
Name: Country, Length: 202, dtype: object

In [159]:
df_who.Country.str.zfill(12)

0            0Afghanistan
1            00000Albania
2            00000Algeria
3            00000Andorra
4            000000Angola
              ...        
197          00000Vietnam
198    West Bank and Gaza
199          0000000Yemen
200          000000Zambia
201          0000Zimbabwe
Name: Country, Length: 202, dtype: object

## Modificació d'un `DataFrame`

### Concatenació i unió d'un `DataFrame`

## Agrupació de dades

### Funcions d'agregació en grups

### Agrupacions de múltiples columnes

### Multi-índex

### Agregacions avançades

### Activitats

## Categorització de dades

## Gestionant l'absència de dades

### Tratant l'absència de dades

### Mètodes per omplir una sèrie amb dades `NaN`

### Eliminació de valors `NaN`

### Activitats

## Sèries temporals

### Activitats

## Visualització

### La biblioteca `matplotlib`

### Tipus de visualitzacions

### La biblioteca `seaborn`