# Introducción
Para desarrollar tu primer laboratorio tendrás que cargar algunas herramientas básicas que te permitirán trabajar con los datos y hacer tus primeros análisis.

Las actividades que desarrollaremos en este laboratorio son las siguientes:

- Cargar un archivo con datos en tu entorno de trabajo
- Exploración de datos.

¡Empezamos!
## Importar las librerías
Antes de empezar vamos a importar las siguientes librerías:

- Pandas
- Numpy
- Matplotlib

In [1]:
# importa las librerías a nuestro entorno de trabajo

import numpy as np # Programación vectorial
import matplotlib.pyplot as plt # Visualización
import pandas as pd # Estructura y manipulación de datos

Basta con importar una vez las librerías a nuestro entorno. Si al momento de ejecutar el código aparece un error, considera lo siguiente:

1. Esta bien escrito el comando
2. Tienes instalada la librería en tu entorno local (En caso de que no estés usando Colab)

Una de las habilidades básicas que debes aprender es corregir errores y buscar la documentación para dar solución a un problema.

## Cargar un archivo de datos

Hay varias maneras de cargar un archivo de datos en nuestro entorno. El archivo lo podemos llamar desde una URL o tener guardado en nuestra computadora.

Si queremos cargar un archivo que desde una URL ejecutamos el siguiente comando

In [2]:
url = 'https://raw.githubusercontent.com/lorey/list-of-countries/master/csv/countries.csv'
df = pd.read_csv(url, sep=";")

En la celda anterior se ejecutan dos accciones:

1. Se guarda el archivo csv que tiene los datos en la variable "url"
2. Se crea una nueva variable de tipo (*dataframe de pandas*) con los datos del archivo importado. La separación de los datos se realiza a través ";"

En caso de que quieras subir un archivo local tendrás que ejecutar lo siguiente:

In [3]:
from google.colab import files
uploaded = files.upload()

Saving Titanic.csv to Titanic.csv


Una vez que tengas el archivo cargado podrás crear un dataframe con Pandas para empezar con tu análisis.

Una tercera forma es montar tu unidad de Google Drive en tu entorno de trabajo. Tendrás que dar permiso para que Colab pueda acceder a tu unidad de almacenamiento de Drive.

Debes ejecutar los siguientes comandos en una celda de código


```
from google.colab import drive
drive.mount('/content/drive')
```



### Explorando el archivo con los datos
Hay varias formas de explorar un archivo. Una de las más comunes es revisando las primeras filas.
Por ejemplo, para mirar las primeras cincoo filas del archivo guardado en la variable "df" tenemos que ejecutar lo siguiente:


In [4]:
df.head(5)

Unnamed: 0,alpha_2,alpha_3,area,capital,continent,currency_code,currency_name,eqivalent_fips_code,fips,geoname_id,languages,name,neighbours,numeric,phone,population,postal_code_format,postal_code_regex,tld
0,AD,AND,468.0,Andorra la Vella,EU,EUR,Euro,,AN,3041565,ca,Andorra,"ES,FR",20,376,84000,AD###,^(?:AD)*(\d{3})$,.ad
1,AE,ARE,82880.0,Abu Dhabi,AS,AED,Dirham,,AE,290557,"ar-AE,fa,en,hi,ur",United Arab Emirates,"SA,OM",784,971,4975593,,,.ae
2,AF,AFG,647500.0,Kabul,AS,AFN,Afghani,,AF,1149361,"fa-AF,ps,uz-AF,tk",Afghanistan,"TM,CN,IR,TJ,PK,UZ",4,93,29121286,,,.af
3,AG,ATG,443.0,St. John's,,XCD,Dollar,,AC,3576396,en-AG,Antigua and Barbuda,,28,+1-268,86754,,,.ag
4,AI,AIA,102.0,The Valley,,XCD,Dollar,,AV,3573511,en-AI,Anguilla,,660,+1-264,13254,,,.ai


# Exploración de Datos

Carga el archivo TITANIC:CSV desde tu disco duro.

In [5]:
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
    name=fn
titanic = pd.read_csv(name, sep=",")
#titanic = pd.read_csv(archivo, sep=";") # Importamos un CSV y Pandas nos retorna un pd.DataFrame

Saving Titanic.csv to Titanic (1).csv


Veamos un análisis rápido del DATAFRAME.

In [6]:
titanic.head() # Con el método pd.DataFrame.head() podemos explorar las primeras filas de un pd.DataFrame

Unnamed: 0,Passengerid,Age,Fare,Sex,sibsp,zero,zero.1,zero.2,zero.3,zero.4,...,zero.12,zero.13,zero.14,Pclass,zero.15,zero.16,Embarked,zero.17,zero.18,2urvived
0,1,22.0,7.25,0,1,0,0,0,0,0,...,0,0,0,3,0,0,2.0,0,0,0
1,2,38.0,71.2833,1,1,0,0,0,0,0,...,0,0,0,1,0,0,0.0,0,0,1
2,3,26.0,7.925,1,0,0,0,0,0,0,...,0,0,0,3,0,0,2.0,0,0,1
3,4,35.0,53.1,1,1,0,0,0,0,0,...,0,0,0,1,0,0,2.0,0,0,1
4,5,35.0,8.05,0,0,0,0,0,0,0,...,0,0,0,3,0,0,2.0,0,0,0


In [7]:
titanic.tail() # Con el método pd.DataFrame.tail() podemos explorar las últimas filas de un pd.DataFrame

Unnamed: 0,Passengerid,Age,Fare,Sex,sibsp,zero,zero.1,zero.2,zero.3,zero.4,...,zero.12,zero.13,zero.14,Pclass,zero.15,zero.16,Embarked,zero.17,zero.18,2urvived
1304,1305,28.0,8.05,0,0,0,0,0,0,0,...,0,0,0,3,0,0,2.0,0,0,0
1305,1306,39.0,108.9,1,0,0,0,0,0,0,...,0,0,0,1,0,0,0.0,0,0,0
1306,1307,38.5,7.25,0,0,0,0,0,0,0,...,0,0,0,3,0,0,2.0,0,0,0
1307,1308,28.0,8.05,0,0,0,0,0,0,0,...,0,0,0,3,0,0,2.0,0,0,0
1308,1309,28.0,22.3583,0,1,0,0,0,0,0,...,0,0,0,3,0,0,0.0,0,0,0


In [8]:
titanic.sample() # Con el método pd.DataFrame.tail() podemos explorar una fila al azar de un pd.DataFrame

Unnamed: 0,Passengerid,Age,Fare,Sex,sibsp,zero,zero.1,zero.2,zero.3,zero.4,...,zero.12,zero.13,zero.14,Pclass,zero.15,zero.16,Embarked,zero.17,zero.18,2urvived
1276,1277,24.0,65.0,1,1,0,0,0,0,0,...,0,0,0,2,0,0,2.0,0,0,0


En Pandas también podemos acceder a columnas específicas de nuestro conjunto de datos, pero en el caso de Pandas, podemos acceder facilmente mediante el nombre de la columna

In [10]:
titanic.Name # Extraemos la columna Name  Pandas retorna un pd.Series

AttributeError: 'DataFrame' object has no attribute 'Name'

In [11]:
titanic["Age"] # Otra sintaxis para extraer una columna

0       22.0
1       38.0
2       26.0
3       35.0
4       35.0
        ... 
1304    28.0
1305    39.0
1306    38.5
1307    28.0
1308    28.0
Name: Age, Length: 1309, dtype: float64

In [12]:
titanic[["Sex","Pclass"]] # Podemos también extraer una lista de columnas

Unnamed: 0,Sex,Pclass
0,0,3
1,1,1
2,1,3
3,1,1
4,0,3
...,...,...
1304,0,3
1305,1,1
1306,0,3
1307,0,3


Para continuar con la exploración de nuestros datos, el método `pd.Series.describe()` nos devuelve una serie de descriptores de la columna.

In [None]:
titanic.Age.describe()

In [None]:
titanic.Sex.describe()

El método `pd.Series.value_counts()` nos permite conocer la distribución de una columna de valores discretos.

In [None]:
titanic[(titanic.Age < 5) & (titanic.Survived == 0)] # Filtramos sólo las personas menores a 5 años que no sobrevivieron

In [None]:
titanic[titanic.Name.str.contains("Rose")] # Con el método pd.Series.str.contains() podemos filtrar una columna de texto

Con el método `pd.DataFrame.groupby()` podemos agrupar los datos por los valores de una columna específica. Y con el método `pd.core.groupby.DataFrameGroupBy.agg()` podemos agregar los datos de cada grupo con un método específico.

In [None]:
grouped_titanic = titanic[["Pclass","Fare"]].groupby(by = "Pclass") # Agrupamos los datos por la clase del pasajero
grouped_titanic.agg("mean") # Agregamos los datos utilizando el promedio

# Cuestionario

1. ¿Cuáles son los atributos del archivo TITANIC?

2. Despliega una transacción o registro al azar del archivo TITANIC.

3. ¿Cuántos datos categóricos ordinales hay en Pclass?

4. ¿Cuántos valores únicos tiene la variable categórica nominal Sex?

5. ¿Cuántos valores únicos tiene la variable categórica Embarked?

6. ¿Cuál es el promedio de la variable numérica continua Age?

7. ¿Cuál es la desviación estandar de la variable numérica continua Fare?

8. ¿Qué tipo de datos es la variable PassangerId?






