# Introducción
Para desarrollar tu primer laboratorio tendrás que cargar algunas herramientas básicas que te permitirán trabajar con los datos y hacer tus primeros análisis.

Las actividades que desarrollaremos en este laboratorio son las siguientes:

- Cargar un archivo con datos en tu entorno de trabajo
- Exploración de datos.

¡Empezamos!
## Importar las librerías
Antes de empezar vamos a importar las siguientes librerías:

- Pandas
- Numpy
- Matplotlib

In [8]:
# importa las librerías a nuestro entorno de trabajo

import numpy as np # Programación vectorial
import matplotlib.pyplot as plt # Visualización
import pandas as pd # Estructura y manipulación de datos
import seaborn as sns #Visualización

Basta con importar una vez las librerías a nuestro entorno. Si al momento de ejecutar el código aparece un error, considera lo siguiente:

1. Esta bien escrito el comando
2. Tienes instalada la librería en tu entorno local (En caso de que no estés usando Colab)

Una de las habilidades básicas que debes aprender es corregir errores y buscar la documentación para dar solución a un problema.

## Cargar un archivo de datos

Hay varias maneras de cargar un archivo de datos en nuestro entorno. El archivo lo podemos llamar desde una URL o tener guardado en nuestra computadora.

Si queremos cargar un archivo que desde una URL ejecutamos el siguiente comando

In [2]:
url = 'https://raw.githubusercontent.com/lorey/list-of-countries/master/csv/countries.csv'
df = pd.read_csv(url, sep=";")

En la celda anterior se ejecutan dos accciones:

1. Se guarda el archivo csv que tiene los datos en la variable "url"
2. Se crea una nueva variable de tipo (*dataframe de pandas*) con los datos del archivo importado. La separación de los datos se realiza a través ";"

En caso de que quieras subir un archivo local tendrás que ejecutar lo siguiente:

In [7]:
from google.colab import files
uploaded = files.upload()

Saving 1.1.4_Countries.csv to 1.1.4_Countries.csv


Una vez que tengas el archivo cargado podrás crear un dataframe con Pandas para empezar con tu análisis.

Una tercera forma es montar tu unidad de Google Drive en tu entorno de trabajo. Tendrás que dar permiso para que Colab pueda acceder a tu unidad de almacenamiento de Drive.

Debes ejecutar los siguientes comandos en una celda de código


```
from google.colab import drive
drive.mount('/content/drive')
```



### Explorando el archivo con los datos
Hay varias formas de explorar un archivo. Una de las más comunes es revisando las primeras filas.
Por ejemplo, para mirar las primeras cincoo filas del archivo guardado en la variable "df" tenemos que ejecutar lo siguiente:


In [4]:
df.head(5)

Unnamed: 0,alpha_2,alpha_3,area,capital,continent,currency_code,currency_name,eqivalent_fips_code,fips,geoname_id,languages,name,neighbours,numeric,phone,population,postal_code_format,postal_code_regex,tld
0,AD,AND,468.0,Andorra la Vella,EU,EUR,Euro,,AN,3041565,ca,Andorra,"ES,FR",20,376,84000,AD###,^(?:AD)*(\d{3})$,.ad
1,AE,ARE,82880.0,Abu Dhabi,AS,AED,Dirham,,AE,290557,"ar-AE,fa,en,hi,ur",United Arab Emirates,"SA,OM",784,971,4975593,,,.ae
2,AF,AFG,647500.0,Kabul,AS,AFN,Afghani,,AF,1149361,"fa-AF,ps,uz-AF,tk",Afghanistan,"TM,CN,IR,TJ,PK,UZ",4,93,29121286,,,.af
3,AG,ATG,443.0,St. John's,,XCD,Dollar,,AC,3576396,en-AG,Antigua and Barbuda,,28,+1-268,86754,,,.ag
4,AI,AIA,102.0,The Valley,,XCD,Dollar,,AV,3573511,en-AI,Anguilla,,660,+1-264,13254,,,.ai


# Exploración de Datos

Carga el archivo TITANIC:CSV desde tu disco duro.

In [5]:
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
    name=fn
titanic = pd.read_csv(name, sep=",")
#titanic = pd.read_csv(archivo, sep=";") # Importamos un CSV y Pandas nos retorna un pd.DataFrame

Saving 1.1.5_Titanic.csv to 1.1.5_Titanic (1).csv


Veamos un análisis rápido del DATAFRAME.

In [6]:
titanic.head() # Con el método pd.DataFrame.head() podemos explorar las primeras filas de un pd.DataFrame

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [9]:
titanic.tail() # Con el método pd.DataFrame.tail() podemos explorar las últimas filas de un pd.DataFrame

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.05,,S
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.25,,S
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.05,,S
417,1309,0,3,"Peter, Master. Michael J",male,,1,1,2668,22.3583,,C


In [26]:
titanic.sample() # Con el método pd.DataFrame.tail() podemos explorar una fila al azar de un pd.DataFrame

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
376,1268,1,3,"Kink, Miss. Maria",female,22.0,2,0,315152,8.6625,,S


En Pandas también podemos acceder a columnas específicas de nuestro conjunto de datos, pero en el caso de Pandas, podemos acceder facilmente mediante el nombre de la columna

In [11]:
titanic.Name # Extraemos la columna Name  Pandas retorna un pd.Series

0                                  Kelly, Mr. James
1                  Wilkes, Mrs. James (Ellen Needs)
2                         Myles, Mr. Thomas Francis
3                                  Wirz, Mr. Albert
4      Hirvonen, Mrs. Alexander (Helga E Lindqvist)
                           ...                     
413                              Spector, Mr. Woolf
414                    Oliva y Ocana, Dona. Fermina
415                    Saether, Mr. Simon Sivertsen
416                             Ware, Mr. Frederick
417                        Peter, Master. Michael J
Name: Name, Length: 418, dtype: object

In [12]:
titanic["Age"] # Otra sintaxis para extraer una columna

0      34.5
1      47.0
2      62.0
3      27.0
4      22.0
       ... 
413     NaN
414    39.0
415    38.5
416     NaN
417     NaN
Name: Age, Length: 418, dtype: float64

In [13]:
titanic[["Sex","Pclass"]] # Podemos también extraer una lista de columnas

Unnamed: 0,Sex,Pclass
0,male,3
1,female,3
2,male,2
3,male,3
4,female,3
...,...,...
413,male,3
414,female,1
415,male,3
416,male,3


Para continuar con la exploración de nuestros datos, el método `pd.Series.describe()` nos devuelve una serie de descriptores de la columna.

In [14]:
titanic.Age.describe()

count    332.000000
mean      30.272590
std       14.181209
min        0.170000
25%       21.000000
50%       27.000000
75%       39.000000
max       76.000000
Name: Age, dtype: float64

In [15]:
titanic.Sex.describe()

count      418
unique       2
top       male
freq       266
Name: Sex, dtype: object

El método `pd.Series.value_counts()` nos permite conocer la distribución de una columna de valores discretos.

In [16]:
titanic[(titanic.Age < 5) & (titanic.Survived == 0)] # Filtramos sólo las personas menores a 5 años que no sobrevivieron

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
89,981,0,2,"Wells, Master. Ralph Lester",male,2.0,1,1,29103,23.0,,S
201,1093,0,3,"Danbom, Master. Gilbert Sigvard Emanuel",male,0.33,0,2,347080,14.4,,S
281,1173,0,3,"Peacock, Master. Alfred Edward",male,0.75,1,1,SOTON/O.Q. 3101315,13.775,,S
307,1199,0,3,"Aks, Master. Philip Frank",male,0.83,0,1,392091,9.35,,S


In [17]:
titanic[titanic.Name.str.contains("Rose")] # Con el método pd.Series.str.contains() podemos filtrar una columna de texto

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
208,1100,1,1,"Rosenbaum, Miss. Edith Louise",female,33.0,0,0,PC 17613,27.7208,A11,C
327,1219,0,1,"Rosenshine, Mr. George (Mr George Thorne"")""",male,46.0,0,0,PC 17585,79.2,,C


Con el método `pd.DataFrame.groupby()` podemos agrupar los datos por los valores de una columna específica. Y con el método `pd.core.groupby.DataFrameGroupBy.agg()` podemos agregar los datos de cada grupo con un método específico.

In [18]:
grouped_titanic = titanic[["Pclass","Fare"]].groupby(by = "Pclass") # Agrupamos los datos por la clase del pasajero
grouped_titanic.agg("mean") # Agregamos los datos utilizando el promedio

Unnamed: 0_level_0,Fare
Pclass,Unnamed: 1_level_1
1,94.280297
2,22.202104
3,12.459678


# Cuestionario

1. ¿Cuáles son los atributos del archivo TITANIC?

2. Despliega una transacción o registro al azar del archivo TITANIC.

3. ¿Cuántos datos categóricos ordinales hay en Pclass?

4. ¿Cuántos valores únicos tiene la variable categórica nominal Sex?

5. ¿Cuántos valores únicos tiene la variable categórica Embarked?

6. ¿Cuál es el promedio de la variable numérica continua Age?

7. ¿Cuál es la desviación estandar de la variable numérica continua Fare?

8. ¿Qué tipo de datos es la variable PassangerId?








1.- Los atributos del archivo titanic son id, sobreviviente, pclass, nombre, sexo, edad, sibso, parch, ticket, fare, cabin, embarked

2.-

In [27]:
titanic.sample()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
350,1242,1,1,"Greenfield, Mrs. Leo David (Blanche Strouse)",female,45.0,0,1,PC 17759,63.3583,D10 D12,C


3.-hay 7, que son survived, pclass, sex, age, sibsp, parch, embarked

4.-

In [30]:
titanic.Embarked.unique()

array(['Q', 'S', 'C'], dtype=object)

5.- tiene dos valores unicos, female y male


Age.