<a href="https://colab.research.google.com/github/marcus-santos/ifsp-carcdsi-playground/blob/main/combinando_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd

lojaA = pd.DataFrame({"loja": ["A","A","A"],
                      "dia": ["sex", "sab", "dom"],
                      "valor": [7500,9500,8200]}
                     )

lojaB = pd.DataFrame({"loja": ["B","B","B"],
                      "dia": ["sex", "sab", "dom"],
                      "valor": [5100,8250,9900]}
                     )

lojaC = pd.DataFrame({"loja": ["C","C"],
                      "dia": ["sab", "dom"],
                      "valor": [7500,11800]}
                     )

lojaABC = pd.concat([lojaA,lojaB,lojaC], ignore_index=True)

print(lojaABC)


  loja  dia  valor
0    A  sex   7500
1    A  sab   9500
2    A  dom   8200
3    B  sex   5100
4    B  sab   8250
5    B  dom   9900
6    C  sab   7500
7    C  dom  11800


In [4]:
d1 = pd.DataFrame({"carro": ["Hyundai", "Renault", "Fiat"]})

d2 = pd.DataFrame({"animal": ["Capivara", "Bem-ti-vi"]})

d3 = pd.concat([d1,d2], ignore_index=True, sort=False)
print(d3)

     carro     animal
0  Hyundai        NaN
1  Renault        NaN
2     Fiat        NaN
3      NaN   Capivara
4      NaN  Bem-ti-vi


In [6]:
df_sql = pd.DataFrame({"email": ["elza.=_peixoto@astconsult.com.br",
                                 "carlos_pires@piscinasegura.com.br"]
                       })

df_python = pd.DataFrame({"email": ["elza.=_peixoto@astconsult.com.br",
                                    "roberto_moreira@gruporeis.net",
                                    "alice.nicole.barbosa@bb.com.br"],
                          })

# União (relação de emails distintos)

alunos = pd.concat([df_sql, df_python], ignore_index=True)

alunos = alunos.drop_duplicates()

# Interseção (quem fez ambos os cursos)

sql_e_python = df_sql.merge(df_python)

# Diferença (quem fez só SQÇ e fez só Python)

so_sql = df_sql[df_sql.email.isin(df_python.email)==False]
so_python = df_python[df_python.email.isin(df_sql.email)==False]

print("Alunos Distintos:\n", alunos)
print("Alunos que fizeram SQL e Python:\n", sql_e_python)
print("Alunos que fizeram apenas SQL:\n", so_sql)
print("Alunos que fizeram apenas Python:\n", so_python)

Alunos Distintos:
                                email
0   elza.=_peixoto@astconsult.com.br
1  carlos_pires@piscinasegura.com.br
3      roberto_moreira@gruporeis.net
4     alice.nicole.barbosa@bb.com.br
Alunos que fizeram SQL e Python:
                               email
0  elza.=_peixoto@astconsult.com.br
Alunos que fizeram apenas SQL:
                                email
1  carlos_pires@piscinasegura.com.br
Alunos que fizeram apenas Python:
                             email
1   roberto_moreira@gruporeis.net
2  alice.nicole.barbosa@bb.com.br


In [8]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [16]:
# Importando os dados

flags = pd.read_csv('/content/drive/MyDrive/IFSP/Ciencia_Dados/Material/flags.csv')
countries = pd.read_csv('/content/drive/MyDrive/IFSP/Ciencia_Dados/Material/countries.csv')

num_linhas_flags = flags.shape[0]
num_linhas_countries = countries.shape[0]

# Inner Join: paises comuns e ambas as bases

ambas = pd.merge(flags, countries, how="inner", left_on="name", right_on="country")
num_linhas_ambas = ambas.shape[0]

# Left Join: paises apenas em flags

so_flags = pd.merge(flags, countries, how="left", left_on="name", right_on="country")
so_flags = so_flags[pd.isnull(so_flags['country'])==True]
num_linhas_so_flags = so_flags.shape[0]

# Right Join: paises apenas em countries

so_countries = pd.merge(flags, countries, how="right", left_on="name", right_on="country")
so_countries = so_countries[pd.isnull(so_countries['name'])==True]
num_linhas_so_countries = so_countries.shape[0]

print("Numero de paises em flags: ", num_linhas_flags)
print("Numero de paises em countries: ", num_linhas_countries)
print("Numero de paises em ambas as bases: ", num_linhas_ambas)
print("Numero de paises apenas em flags: ", num_linhas_so_flags)
print("Numero de paises apenas em countries: ", num_linhas_so_countries)

Numero de paises em flags:  194
Numero de paises em countries:  227
Numero de paises em ambas as bases:  177
Numero de paises apenas em flags:  17
Numero de paises apenas em countries:  50


In [17]:
# Seleção

# Selecione apenas as linhas dos países da Oceania
v = (flags['landmass']==6)
flags_oceania = flags[v]

print(flags_oceania)

                 name  landmass  zone  area  population  language  religion  \
3      American-Samoa         6     3     0           0         1         1   
10          Australia         6     2  7690          15         1         1   
41       Cook-Islands         6     3     0           0         1         1   
57               Fiji         6     2    18           1         1         1   
61   French-Polynesia         6     3     4           0         3         0   
71               Guam         6     1     0           0         1         1   
82          Indonesia         6     2  1904         157        10         2   
94           Kiribati         6     1     0           0         1         1   
109          Marianas         6     1     0           0        10         1   
113        Micronesia         6     1     1           0        10         1   
119             Nauru         6     2     0           0        10         1   
123       New-Zealand         6     2   268         

In [18]:
# Projeção

# Selecione apénas as linhas dos países da Oceania com área acima de 200mil Km²
v = (flags['landmass']==6) & (flags['area']>200)
df = flags[v]

# Projeta apenas as colunas "name", "colours", "language", "landmass" e "area"
df = df[['name', 'colours', 'language', 'landmass', 'area']]

print(df)

                 name  colours  language  landmass  area
10          Australia        3         1         6  7690
82          Indonesia        2        10         6  1904
123       New-Zealand        3         1         6   268
134  Papua-New-Guinea        4         1         6   463
137       Philippines        4        10         6   300


In [19]:
# Método 'reset_index()'

# Selecione apénas as linhas dos países da Oceania com área acima de 200mil Km²
v = (flags['landmass']==6) & (flags['area']>200)
df = flags[v]

# Projeta apenas as colunas "name", "colours", "language", "landmass" e "area"
df = df[['name', 'colours', 'language', 'landmass', 'area']]

# Reseta o indice
df = df.reset_index(drop=True)

print(df)

               name  colours  language  landmass  area
0         Australia        3         1         6  7690
1         Indonesia        2        10         6  1904
2       New-Zealand        3         1         6   268
3  Papua-New-Guinea        4         1         6   463
4       Philippines        4        10         6   300
