# Pandas 

Pandas (acrónimo para Panel Data) es un módulo orientado a la manipulación y limpieza de estructuras de datos.

Se suele utilizar en conjunto a otros módulos como numpy , scipy y matplotlib para el análisis de datos.

### ¿Por qué pandas ?

1. Es una colección de funciones y algoritmos que implementan las principales convenciones sobre el análisis de datos.

2. Permite importar distintos archivos de datos con procedimientos robustos permiten centrar al investigador en lo substancial y no en procesar archivos.
3. Genera un objeto DataFrame con una estructura de matriz (Filas y Columnas) que resulta intuitiva para desarrollar el análisis orientado en variables y segmentado por casos.
4. Presenta una amplia gama de funciones y procedimientos comunes generadas en los objetos.



## Importando archivos con pandas

Usualmente trabajaremos con datos en un formato de texto plano, llámese csv o xlsx .

Ahora generaremos nuestra primera interacción con pandas :

* La convención indica que pandas se abrevia de forma pd .


In [1]:
import pandas as pd

* Dentro de nuestro directorio de trabajo encontraremos el archivo nations.xls .
* Un archivo xls presenta el nombre de los atributos en la primera fila. Después de ella, le siguen las observaciones ingresadas.

* Cada observación está separada mediante comas.


Para ingresar éste archivo a nuestro notebook, utilizaremos la función read_csv de pandas.

## Digresión: ¿Cómo llamar funciones dentro de un módulo?

Para llamar una función y/u objeto específico dentro de nuestro módulo importado, utilizamos la siguiente sintáxis:

$$ modulo.funcion $$

Vamos a generar un objeto llamado df (contracción de dataframe) mediante read_csv

In [8]:
df = pd.read_csv('nations.xls')

Si todo resulta bien, podemos ver las primeras 5 observaciones de nuestro nuevo objeto con df.head().


In [3]:
df.head()

Unnamed: 0.1,Unnamed: 0,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,1,Algeria,Africa,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,2,Benin,Africa,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,3,Botswana,Africa,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,
3,4,Burkina Faso,Africa,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,5,Burundi,Africa,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999


Los resultados son idénticos que el archivo alumnos.csv , con la salvedad que están mejor presentados.

El resultado de head es la representación en filas y columnas.

Hay algunas salvedades a destacar:

    1. En Python, los índices comienzan en 0.
    2. La primera columna de nuestra tabla corresponde a la posición de la fila respecto al DataFrame. Esta información nos         facilitará segmentación de archivos.


## DataFrame

El objeto df que creamos recientemente es un objeto DataFrame, una de las estructuras elementales de pandas .

Un objeto DataFrame representa una tabla rectangular de datos compuestas por filas (observaciones registradas en el archivo) y una serie de columnas (atributos medibles que pueden ser integer, float, string, boolean, etc...).

Las observaciones registradas son insertadas en bloques bidimensionales que responden a la notación de matrices.

Podemos inspeccionar las dimensiones de la tabla mediante .shape. Éste nos informará de la cantidad de filas y columnas.


In [10]:
df.shape

(194, 14)

Esta tabla es manipulable y segmentable. Imaginemos que ahora desamos extraer sólo las primeras 3 observaciones de nuestra tabla. La operación se realiza de la siguiente manera

In [11]:
df[:3]

Unnamed: 0.1,Unnamed: 0,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,1,Algeria,Africa,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,2,Benin,Africa,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,3,Botswana,Africa,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,


Python interpretó esta instrucción como "dentro de la tabla df , muéstrame las observaciones hasta la 5".

Eso se generó dentro de los brackets [] , donde pasamos un operador: que se llama slice y permite instruír hasta dónde se puede cortar un elemento.

En el caso anterior utilizamos slice para generar una submuestra hasta cierta condición (que se evalúa por el índice de la tabla; la primera columna).

¿Qué pasa si deseamos generar una segmentación desde un valor en específico? Utilizamos la siguiente sintáxis:

In [12]:
df[13:]

Unnamed: 0.1,Unnamed: 0,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
13,14,Djibouti,Africa,1972.199951,3.800000,22.900000,96.00,56.599998,848000,76.099998,0.7636,,2.200000,
14,15,Egypt,Africa,4754.399902,5.950000,46.599998,24.75,72.333336,77645648,43.183334,0.3092,68.900002,8.450000,32.099998
15,16,Equatorial Guinea,Africa,27645.800781,5.400000,122.900002,149.50,50.066666,653533,39.266666,0.4140,93.300003,32.550003,
16,17,Eritrea,Africa,579.599976,3.400000,66.599998,60.50,60.016666,4871634,20.450001,0.7252,66.599998,0.500000,
17,18,Ethiopia,Africa,741.400024,1.500000,72.400002,112.00,57.049999,78593232,16.283333,0.8700,29.799999,0.300000,29.799999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
189,190,Samoa,Oceania,4012.600098,10.300000,28.299999,26.75,71.533333,181600,20.666668,0.5010,98.800003,3.100000,
190,191,Solomon Islands,Oceania,2249.199951,4.500000,70.300003,36.00,66.500000,503617,17.766666,0.4858,,1.400000,
191,192,Tonga,Oceania,4072.199951,10.133333,22.299999,19.25,71.833336,102550,23.266666,0.7150,99.000000,4.850000,
192,193,Tuvalu,Oceania,,,23.299999,36.50,66.033333,9767,49.233334,,,,


Acá instruímos a la tabla que entregue los resultados desde la fila 13 hasta el final de las observaciones.

¿Y si queremos seleccionar entre dos valores? Utilizamos la siguiente sintáxis:

In [13]:
df[3:13]

Unnamed: 0.1,Unnamed: 0,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
3,4,Burkina Faso,Africa,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,5,Burundi,Africa,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999
5,6,Cameroon,Africa,1986.800049,5.65,127.800003,155.0,50.116665,18564118,56.366665,0.6532,,0.75,
6,7,Cape Verde,Africa,3052.199951,3.5,81.599998,30.0,73.333336,484867,59.283333,0.6358,84.800003,2.15,
7,8,Central African Rep,Africa,677.0,3.383333,106.599998,173.5,45.933334,4203917,38.466667,0.8222,55.200001,0.2,
8,9,Chad,Africa,1266.199951,1.5,164.5,209.0,48.566666,10509983,26.4,0.8006,33.599998,0.1,
9,10,Comoros,Africa,1099.0,2.8,58.0,105.75,59.783333,688300,28.0,0.8554,74.199997,0.4,
10,11,Congo,Africa,3628.0,5.85,118.699997,125.75,56.016666,3785517,61.133331,0.7544,,1.55,47.299999
11,12,Congo (Dem Rep),Africa,279.799988,3.416667,201.399994,199.0,47.516666,61654348,33.633331,0.6552,66.800003,0.1,44.400002
12,13,C�te d'Ivoire,Africa,1539.199951,3.2,129.399994,123.25,53.049999,18844750,48.666664,0.6132,55.299999,1.45,46.099998


## Series
Las segmentaciones realizadas anteriormiente fueron orientadas a las filas de una tabla. Esto también se puede realizar a las columnas de la tabla.

Para ello utilizamos una forma similar. Lo que vamos a separar la columna peso.


In [14]:
df.columns

Index(['Unnamed: 0', 'country', 'region', 'gdp', 'school', 'adfert',
       'chldmort', 'life', 'pop', 'urban', 'femlab', 'literacy', 'co2',
       'gini'],
      dtype='object')

In [15]:
df['region']

0       Africa
1       Africa
2       Africa
3       Africa
4       Africa
        ...   
189    Oceania
190    Oceania
191    Oceania
192    Oceania
193    Oceania
Name: region, Length: 194, dtype: object

Entre los brackets pasamos el nombre exacto de la columna que deseamos analizar. Ya que trabajaremos con ésta columna, guardémosla en un nuevo objeto

In [16]:
region = df['region']
type(region)

pandas.core.series.Series

In [17]:
type(df)

pandas.core.frame.DataFrame

Cuando separamos ésta columna y preguntamos por su tipo, Python nos entrega que es un objeto pandas.core.series.Series , este elemento que separamos se conoce como Series.

En pandas , las series son listas unidimensionales que contienen una secuencia de valores.

Todo objeto pd.Series tiene asociado una lista de etiquetas de datos denominada index. De manera similar a su comportamiento en DataFrame , nos permite realizar segmentaciones.


In [18]:
region[15:]

15      Africa
16      Africa
17      Africa
18      Africa
19      Africa
        ...   
189    Oceania
190    Oceania
191    Oceania
192    Oceania
193    Oceania
Name: region, Length: 179, dtype: object

In [19]:
# Borrar una columna

df.columns

Index(['Unnamed: 0', 'country', 'region', 'gdp', 'school', 'adfert',
       'chldmort', 'life', 'pop', 'urban', 'femlab', 'literacy', 'co2',
       'gini'],
      dtype='object')

In [20]:
df.head()

Unnamed: 0.1,Unnamed: 0,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,1,Algeria,Africa,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,2,Benin,Africa,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,3,Botswana,Africa,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,
3,4,Burkina Faso,Africa,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,5,Burundi,Africa,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999


In [21]:
df = df.drop(columns=['Unnamed: 0'])

In [22]:
df.head()

Unnamed: 0,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,Algeria,Africa,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,Benin,Africa,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,Botswana,Africa,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,
3,Burkina Faso,Africa,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,Burundi,Africa,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999


In [23]:
# Contar la frecuencia de valores dentro de una columna
df['region'].value_counts()

Africa      52
Asia        49
Europe      43
Americas    35
Oceania     15
Name: region, dtype: int64

In [26]:
df['region'].isna().value_counts()

False    194
Name: region, dtype: int64

In [27]:
df['gini'].isna().value_counts()

True     113
False     81
Name: gini, dtype: int64

### Subset de datos

Seleccionar cierta parte de la muestra con *loc*

In [28]:
df.columns

Index(['country', 'region', 'gdp', 'school', 'adfert', 'chldmort', 'life',
       'pop', 'urban', 'femlab', 'literacy', 'co2', 'gini'],
      dtype='object')

In [34]:
df_subset = df.loc[:, ['country', 'region']]

In [36]:
df_subset.head()

Unnamed: 0,country,region
0,Algeria,Africa
1,Benin,Africa
2,Botswana,Africa
3,Burkina Faso,Africa
4,Burundi,Africa


Obtener un subset mediante filtrado


In [37]:
# Por ejemplo, obtener un subse de datos que solo guarde los registros de la región "Americas"

df[df['region'] == 'Americas'].head()

Unnamed: 0,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
52,Antigua and Barbuda,Americas,17676.400391,8.9,55.5,13.0,72.166664,86367,30.466667,,99.0,18.299999,
53,Argentina,Americas,12274.0,9.083333,56.900002,15.25,75.283333,39543736,91.900002,0.6544,97.699997,15.65,45.799999
54,Bahamas,Americas,,8.5,31.799999,13.75,74.599998,331233,83.599998,0.8656,,23.950001,
55,Barbados,Americas,19189.0,9.25,42.599998,11.5,76.300003,271917,42.900002,0.843,,16.65,
56,Belize,Americas,6208.799805,7.85,78.699997,19.75,75.216667,296200,51.200001,0.5674,,10.75,


In [38]:
df_americas = df[df['region'] == 'Americas']

df_americas.head()

Unnamed: 0,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
52,Antigua and Barbuda,Americas,17676.400391,8.9,55.5,13.0,72.166664,86367,30.466667,,99.0,18.299999,
53,Argentina,Americas,12274.0,9.083333,56.900002,15.25,75.283333,39543736,91.900002,0.6544,97.699997,15.65,45.799999
54,Bahamas,Americas,,8.5,31.799999,13.75,74.599998,331233,83.599998,0.8656,,23.950001,
55,Barbados,Americas,19189.0,9.25,42.599998,11.5,76.300003,271917,42.900002,0.843,,16.65,
56,Belize,Americas,6208.799805,7.85,78.699997,19.75,75.216667,296200,51.200001,0.5674,,10.75,


In [39]:
df_americas['gdp'].isnull().value_counts()

False    33
True      2
Name: gdp, dtype: int64

# Actividad


Por parte de la organización de los Juegos Olímpicos, se nos ha solicitado realizar un análisis de
todos los competidores a lo largo de las olimpiadas. Para lograr este análisis, se requiere:

1. Importar la base de datos athlete_events.csv , y reportar la cantidad de registros (filas) y de campos (columnas).
tip: Puede hacer uso de .shape para esto

2. Reportar cuántas competencias se han realizado a lo largo del tiempo.

3. Reportar el porcentaje (número entre 0 y 1) de atletas que participaron tanto en los juegos olímpicos de Verano como en los de Invierno.

4. Informar dónde fue la primera celebración de un Juego Olímpico de Verano.
tip: Investige sobre las funciones min() y unique() de una Serie de pandas.

5. Informar dónde fue la primera celebración de un Juego Olímpico de Invierno.

In [None]:
'''
Soluciones

df = pd.read_csv("athlete_events.csv")

#1. Importar la base de datos athlete_events.csv , y reportar la cantidad de registros (filas) y de campos (columnas).

print(df)

df.shape

#2. Reportar cuántas competencias se han realizado a lo largo del tiempo.
#3. Reportar el porcentaje (número entre 0 y 1) de atletas que participaron tanto en los juegos olímpicos de Verano como en los de Invierno.

cantidad_eventos = df["Event"].value_counts()
cantidad_juegos = df["Games"].value_counts()
cantidad_sesion = df["Season"].value_counts()
porcentaje_sesion = cantidad_sesion/len(df)

print(cantidad_juegos.count())

print(porcentaje_sesion)

#4. Informar dónde fue la primera celebración de un Juego Olímpico de Verano.

df_verano = df[df['Season'] == 'Summer']
primera_sesionverano = df_verano[df_verano["Year"] == df_verano["Year"].min()]
lugar_verano = primera_sesionverano["City"].unique()
print(lugar_verano)

#5. Informar dónde fue la primera celebración de un Juego Olímpico de Invierno.
df_invierno = df[df['Season'] == 'Winter']
primera_sesioninvierno = df_invierno[df_invierno["Year"] == df_invierno["Year"].min()]
lugar_invierno = primera_sesioninvierno["City"].unique()
ejercicio_5 = lugar_invierno

'''

In [None]:
df = pd.read_csv("athlete_events.csv")

#1. Importar la base de datos athlete_events.csv , y reportar la cantidad de registros (filas) y de campos (columnas).

print(df.shape)

#2. Reportar cuántas competencias se han realizado a lo largo del tiempo.
#3. Reportar el porcentaje (número entre 0 y 1) de atletas que participaron tanto en los juegos olímpicos de Verano como en los de Invierno.

cantidad_eventos = df["Event"].value_counts()
cantidad_juegos = df["Games"].value_counts()
cantidad_sesion = df["Season"].value_counts()
porcentaje_sesion = cantidad_sesion/len(df)

print(cantidad_juegos.count())

print(porcentaje_sesion)

#4. Informar dónde fue la primera celebración de un Juego Olímpico de Verano.

df_verano = df[df['Season'] == 'Summer']
primera_sesionverano = df_verano[df_verano["Year"] == df_verano["Year"].min()]
lugar_verano = primera_sesionverano["City"].unique()
print(lugar_verano)

#5. Informar dónde fue la primera celebración de un Juego Olímpico de Invierno.
df_invierno = df[df['Season'] == 'Winter']
primera_sesioninvierno = df_invierno[df_invierno["Year"] == df_invierno["Year"].min()]
lugar_invierno = primera_sesioninvierno["City"].unique()
print(lugar_invierno)