# Limpieza de Datos

### Importar librerias y base de datos.

Lo primero que necesitamos es importar las librerías que nos ayudarán en el proceso de limpieza de datos.

In [1]:
import pandas as pd
import numpy as np

El siguiente paso es leer nuestra base da datos, nuestro tipo de archivo es un csv *(Coma Separated Value)*, por eso ocupamos el siguiente código:

In [2]:
datos = pd.read_csv("SUICIDIOS.csv")

### Visualización de los datos

Con el siguiente código vemos los primeros 5 renglones de nuestros datos.

In [3]:
datos.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers


La función *shape* nos devuelve (filas,columnas) con las que cuenta nuestra base de datos.

In [4]:
datos.shape

(27820, 12)

El comando *column* nos da los nombres de las columnas apareceran en una lista, tal y como aparecen en la base de datos. 

In [5]:
datos.columns

Index(['country', 'year', 'sex', 'age', 'suicides_no', 'population',
       'suicides/100k pop', 'country-year', 'HDI for year',
       ' gdp_for_year ($) ', 'gdp_per_capita ($)', 'generation'],
      dtype='object')

Si se quiere saber el tipo de dato que contiene cada columna, usamos el comando *dtypes*

In [6]:
datos.dtypes

country                object
year                    int64
sex                    object
age                    object
suicides_no             int64
population              int64
suicides/100k pop     float64
country-year           object
HDI for year          float64
 gdp_for_year ($)      object
gdp_per_capita ($)      int64
generation             object
dtype: object

Para eliminar columnas que no necesitamos como _"Country-year"_ que es un dato redundante ya que en otras columnas tenemos el nombre del país y el año, o _"HDI for year"_ que no nos ayuda mucho, utilizamos la función:

In [7]:
datos.drop(['country-year'],axis = 1,inplace=True)
datos.drop(['HDI for year'],axis = 1,inplace=True)

datos.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,gdp_for_year ($),gdp_per_capita ($),generation
0,Albania,1987,male,15-24 years,21,312900,6.71,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,2156624900,796,Boomers


- Cambiar nombres de columnas.

In [8]:
datos.rename(columns={' gdp_for_year ($) ':'gdp_for_year','suicides/100k pop':'porcentaje_suicidios',
                     'gdp_per_capita ($)':'gdp_per_capita'},
               inplace=True)

datos.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,porcentaje_suicidios,gdp_for_year,gdp_per_capita,generation
0,Albania,1987,male,15-24 years,21,312900,6.71,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,2156624900,796,Boomers


#### Descrpcion básica de columnas (tipo, elementos, celdas vacias, etc.)

- country: Es de tipo object, es decir una cadena de caracteres que indica el país al que pertenecen los datos de la fila. 
- year: Es de tipo int, es decir un entero que indica el año al pertenecen los datos de la fila.
- sex: es de tipo object, es decir una cadena que caracteres que indica el género al que pertenecian los individuos de los datos de la fila.
- age: Es de tipo object, es decir una cadena de caracteres que indica el rango de edades en el que se encuentraban los individuos de los datos de la fila.
- suicides_no: Es de tipo int, es decir enteros que cuenta el numero de individuos con las caractristicas indicadas en la misma fila que comietieron suicidio.
- population: Es de tipo int, es decir un entero que indica la población del rango de edad que la misma fila menciona en el país también mencionado.
- porcentaje_suicidios: Es de tipo float, es decir un decimal que indica el numero de suicidios que hay cada 1000 individuos.
- gdp_for_year: Es de tipo object, es decir una cadena de caracteres qu indican el producto interno bruto del país mencionado en la fila en el año mencionado.
- gdo_per_capita: Es de tipo int, es decir enteros que indican el pib per capita del pais mencionado en la fila en el año mencionado.
- generation: Es de tipo object, es decir una cadena de caracteres que indica la generacion a la que pertenecian los individuos con las caracteristicas mencionadas en la fila. 

### Clasificación y Agrupación de los datos

Con esta función obtenemos los valores únicos de la columna *"generation"*, para poder hacer clasificaciones.

In [9]:
gen = datos.generation.unique()
print(gen)

['Generation X' 'Silent' 'G.I. Generation' 'Boomers' 'Millenials'
 'Generation Z']


Con el código de abajo agrupamos los datos por generación.

In [10]:
col = []
for i in range(0,6):
    col.append(datos[datos['generation']==gen[i]])

In [11]:
col[3].head()

Unnamed: 0,country,year,sex,age,suicides_no,population,porcentaje_suicidios,gdp_for_year,gdp_per_capita,generation
4,Albania,1987,male,25-34 years,9,274300,3.28,2156624900,796,Boomers
7,Albania,1987,female,25-34 years,4,257200,1.56,2156624900,796,Boomers
19,Albania,1988,female,25-34 years,5,262400,1.91,2126000000,769,Boomers
20,Albania,1988,male,25-34 years,5,279900,1.79,2126000000,769,Boomers
25,Albania,1989,male,25-34 years,18,283600,6.35,2335124988,833,Boomers


In [12]:
print(datos.sex.unique())
hombre = datos[datos['sex']=='male']
mujer = datos[datos['sex']=='female']

['male' 'female']


In [13]:
vd = pd.get_dummies(datos['sex']) 
vd.drop(['female'],axis = 1,inplace=True)

datosd = pd.concat([datos, vd], axis=1)
datosd.drop(['sex'],axis = 1,inplace=True)
datosd.head()

Unnamed: 0,country,year,age,suicides_no,population,porcentaje_suicidios,gdp_for_year,gdp_per_capita,generation,male
0,Albania,1987,15-24 years,21,312900,6.71,2156624900,796,Generation X,1
1,Albania,1987,35-54 years,16,308000,5.19,2156624900,796,Silent,1
2,Albania,1987,15-24 years,14,289700,4.83,2156624900,796,Generation X,0
3,Albania,1987,75+ years,1,21800,4.59,2156624900,796,G.I. Generation,1
4,Albania,1987,25-34 years,9,274300,3.28,2156624900,796,Boomers,1


- Guardar otros archivos con agrupaciones.

In [14]:
mujer.to_csv('Solo_Mujer.csv', index=False)
hombre.to_csv('Solo_Hombre.csv', index=False)

Con esta función vemos el número de mujeres de la Generación X, que se suicidaron.

In [15]:
genxms = mujer.loc[datos.generation == gen[0]].suicides_no
genxms.head()

2     14
9      0
17     8
22     0
30     5
Name: suicides_no, dtype: int64

In [16]:
datos.isnull().any()

country                 False
year                    False
sex                     False
age                     False
suicides_no             False
population              False
porcentaje_suicidios    False
gdp_for_year            False
gdp_per_capita          False
generation              False
dtype: bool

#### Preguntas de interés:
- **¿Para que me puede servir estas agrupaciones para la práctica siguiente?**


En la siguiente práctica uno de los elementos fundamentales serán las gráficas, y tener estas agrupaciones puede ser muy útil, además de tener nuestros datos más organizados, porque nos simplificará el hacerlas usando como variables estas secciones ya agrupadas.

- **Importancia del analisis previo de los datos antes de iniciar las modificaciones.**


Esto nos ayudó para percatarnos de cuales columnas eran relevantes para cumplir nuestros objetivos y cuales no, y de esta forma solo quedarnos con la información necesaria y poder eliminar datos irrelevantes para nuestro estudio.